2026年2月6日 · 播客 · 45min
我们都对 Claude Code 上瘾了
CLI 胜出了。不是 IDE,不是 Web 应用,也不是沙盒。命令行界面,这项 20 年前的技术,已经成为 AI 辅助编码的主导界面。Y Combinator 的 CEO Garry Tan 描述了他使用 Claude Code 的体验,就像在经历了一场被称为“管理模式”的灾难性损伤后,获得了一副仿生膝盖。
无人预测的复古未来
YC 的 Lightcone 请来了 Calvin French-Owen,他是 Segment(数十亿美元的退出)的联合创始人,后来在 OpenAI 帮助构建了 Codex。这次对话与其说是一次产品评测,不如说是一次对编码代理如何在底层实际工作、为什么 CLI 形式在架构上很重要,以及当每个工程师都成为 AI 工作者的管理者时会发生什么的实时剖析。
Garry 开场坦言,在陷入管理模式多年后,他连续九天使用 Claude Code 进行编码。Calvin 在过去几个月里一直在 Cursor、Claude Code 和 Codex 之间切换,他带来了罕见的视角,既构建过这些工具,又大量使用过这些工具。
为什么 CLI 击败了 IDE
Calvin 提出了一个违反直觉的观点:Claude Code 受益于不是 IDE。IDE 是围绕浏览文件和将状态保存在你的头脑中而构建的。CLI 使你与正在编写的代码保持距离,但矛盾的是,这给了工具更多的自由。
“I feel like when I’m using Claude Code, it’s like, oh, I feel like I’m flying through the code. The code that’s being written is not the front and center thing.” 我觉得当我使用 Claude Code 时,就像在代码中飞速前进。正在编写的代码反而不是最重要的东西。
更实际的优势:CLI 代理可以直接访问你的整个开发环境。它可以访问你的本地 Postgres,运行你的测试套件,访问你的作业队列。Garry 描述了 Claude Code 如何调试嵌套的五层深度延迟作业,找到错误,并为其编写测试。相比之下,Codex 的沙盒方法在任何需要接触真实基础设施的事情上都显得力不从心。
上下文工程才是真正的超能力
Calvin 认为上下文管理是编码代理性能中最重要的因素。关键的架构洞察:Claude Code 产生多个运行 Haiku 的“探索子代理”来遍历文件系统,每个子代理都有自己的上下文窗口。Anthropic 弄清楚了如何确定一个任务是否适合一个上下文窗口,或者是否应该跨多个窗口拆分。
各公司的方法各不相同。Cursor 使用带有嵌入的语义搜索。Claude Code 和 Codex 使用 grep 和 ripgrep。Calvin 认为更简单的方法有效,因为代码具有令人难以置信的上下文密度:短行、最小的数据 blob、可导航的文件夹结构。而且 LLM 非常擅长发出复杂的 grep 表达式,这些表达式会“折磨人类”。
对于构建你自己的非编码工作的代理,Calvin 建议的教训很明确:将你的数据转换为尽可能接近代码的格式,模型可以在周围区域窥视并获得结构化的上下文。
成为前 1% 的编码代理用户
Calvin 最大化编码代理生产力的实用技巧:
最小化样板代码。 部署在 Vercel、Next.js 或 Cloudflare Workers 等基础设施已经处理好的平台上。在微服务或结构良好的 100-200 行代码包中操作。
了解 LLM 的倾向。 代理具有坚持不懈的特性,并且会“更多地利用已有的东西”。如果你的代码库具有不一致的模式(例如 OpenAI 的大型单体仓库,其中既有 Meta 资深工程师的贡献,也有新博士的贡献),则代理会根据你指向的位置选择不同的样式。
为模型提供检查其工作的方法。 测试、linting、CI。Calvin 积极使用多个代码审查机器人,包括 Reptile(一家 YC 公司)、Cursor 的错误机器人和 Codex 进行正确性审查。
积极清除上下文。 Calvin 在上下文达到 token 窗口的 50% 左右时清除上下文。他引用了 Human Layer(YC Fall ‘24)的 Dex,他创造了“哑区”的概念,即 LLM 质量在超过某个 token 阈值后会下降。类比:一个大学生在考试还剩五分钟时停止认真思考,只是匆忙完成。
一个创造性的技巧:在你的上下文的开头植入一个“金丝雀”,一些随机的深奥的事实。定期询问模型是否还记得。当它开始忘记时,你的上下文就被污染了。
两种哲学:Anthropic vs OpenAI
Calvin 对这两家公司处理编码代理的方式进行了揭示性的对比,这源于他们创始的 DNA:
Anthropic 构建供人类使用的工具。Claude Code 的工作方式与人类一样:去五金店,收集材料,弄清楚它们如何组合在一起。重点是语气、风格以及与你其余工作的契合度。
OpenAI 训练最好的模型,并使用强化学习来完成更长期的任务。Codex 在每次迭代后定期运行压缩,从而实现更长的会话。它的工作方式可能根本不像人类,就像 AlphaGo 下出人类不会下的棋步一样。可以把它想象成一台可以从头开始打印狗窝的 3D 打印机:奇怪、缓慢、定制,但它有效。
“Net net it seems like the latter is somewhat inevitable, but I like the former so much.” 总的来说,后者似乎在某种程度上不可避免,但我非常喜欢前者。
架构上的差异是真实存在的:Codex 专为 24-48 小时的自主作业而设计。Claude Code 专为交互式人机协作而设计。Calvin 认为长期运行的自主方法“在某种程度上是不可避免的”,但发现目前人机协作的方法更有趣。
管理者-创造者边界消解
Paul Graham 经典的“创造者时间表 vs 管理者时间表”文章假设了一个硬性边界。编码代理正在消解它。Garry 陷入管理模式多年,他发现自己可以在会议之间的 10 分钟空隙中再次编码,因为代理已经掌握了上下文。
“It used to be that in order to write any code, you had to fill your own context window with so much data about all the different class names and the functions. It would take hours to build up that context window.” 过去,为了编写任何代码,你必须用所有不同的类名和函数的大量数据来填充你自己的上下文窗口。建立那个上下文窗口需要几个小时。
这个观察有一个更深层的含义:如果管理者现在可以编码,并且编码越来越是关于指导和审查代理工作,那么“创造者”和“管理者”之间的区别可能只是你运行多少个代理的范围。
Calvin 认为,那些从编码代理中获得最大收益的人在他们的定位上“更像管理者”:指导流程,保持对产品中具体内容的品味,并考虑自动化。这个角色开始看起来更像“设计师-艺术家”而不是“工程师”。
测试:意想不到的倍增器
Garry 描述了他从九天的编码冲刺中获得的启示。他在最初的 2-3 天里没有进行测试,然后花了一天时间达到 100% 的测试覆盖率。速度的提高是显著的。
这反映了一个更广泛的模式:测试驱动开发已成为 AI 辅助编码的必要条件,正如评估已成为提示工程的必要条件一样。测试用例就是你的评估。没有它们,代理就无法验证自己的工作。
在代理时代重建 Segment
Calvin 对他自己公司的诚实评估:使 Segment 具有价值的集成层(将数据连接到 Mix Panel、Kissmetrics、Google Analytics)的价值已经“降至零”。现在使用编码代理编写这些集成非常简单。
保留价值的是:数据管道编排层。通过 Customer.io 安排电子邮件发送、管理受众、自动化营销活动。并且存在一个新的机会:在客户数据上运行小型 LLM 代理,以动态地个性化入职、产品功能和沟通。
自下而上的分发革命
该小组观察到,开发者工具的分发已经发生了根本性的转变。在变化如此之快的世界中,自上而下的企业销售“太慢了”。工程师安装 Claude Code 或 Codex 并开始使用它,而无需征求许可。
这创造了一种新的动态:编码代理现在正在做出架构决策。如果 Claude Code 推荐使用 PostHog 进行分析,那么就会使用它。Calvin 描述了一家公司的竞争对手通过创建一个有偏见的“前 5 名工具”列表来“生成引擎优化”,LLM 现在将其引用为权威。具有良好文档的开源项目(如 Supabase)受益匪浅,因为它们在 LLM 训练数据中占据主导地位。
代理记忆和协作
Calvin 发现了一个缺失的部分:团队之间共享的代理记忆。Claude Code 和 Codex 都将对话历史记录存储为文件,从而实现个人记忆。但是,代理无法在团队成员之间共享知识。想象一下,知道你同事的代理已经解决了你遇到的相同错误。
该小组还讨论了 Claudebot Social,这是一个个人 AI 代理相互交谈的网络,Calvin 认为这是代理协作可能走向的一个缩影。
后记
- “哑区”概念值得更多关注。上下文退化不是渐进的;它会达到一个临界点。“金丝雀”技巧是一个实用的解决方法,可以解决最终应该在模型级别解决的问题。
- Calvin 将 Anthropic 与 OpenAI 的方法框架为“五金店”与“3D 打印机”,这是对为什么这些产品在做同样的事情时感觉如此不同的最清晰的阐述。
- Segment 的集成价值降至零的观察结果是整个 SaaS 类别的一个领先指标。任何核心价值是“我们为你做无聊的连接”的产品都处于借来的时间。
- 测试不再只是好的实践;它是 AI 代理验证自己工作的机制。在使用编码代理时跳过测试就像从控制系统中删除反馈循环。
- 最未被充分探索的想法:代理为工程师做出架构和工具决策。对于开发者工具营销、开源策略和 LLM 训练数据管理的影响是巨大的。