2026年2月21日 · 播客 · 1h 3min
OpenAI Codex 负责人:我们所知的编程时代已经结束
代码生成微不足道,代码审查才是瓶颈。五年后,手动管理部署将像手写汇编代码一样荒谬。
这是 OpenAI 的 Codex 产品负责人 Alexander Embiricos 在与 Harry Stebbings 的 20VC 播客中进行的广泛对话中提出的论点。讨论涵盖了从产品经理可能过时到 SaaS 格局如何重塑的方方面面,但核心线索是对 AI 代理将如何分阶段重塑软件工程的令人惊讶的具体愿景。
汇编语言类比
Embiricos 反驳了“编码将被自动化”这种懒惰的说法。他的反驳是:当我们从汇编语言转向高级语言时,没有人说编码被自动化了。我们只是编写了更多的代码,这意味着我们需要更多的工程师。
“计算机”这个词最初指的是在布莱切利公园打孔卡片并进行表格数学计算的人类。第一个电子表格软件是模仿办公室里排列成网格的办公桌而设计的。每当一项特定任务被自动化时,对输出的需求就会激增。
“Now that we no longer write assembly, when that change happened and we moved to higher level languages, did we say coding is automated? Not really.” 既然我们不再编写汇编代码,当这种改变发生、我们转向更高级的语言时,我们说编码被自动化了吗?并没有。
他的预测:五年后,构建者会更多,而不是更少。但“人才堆栈”正在压缩。前端/后端的分裂正在消失。在 Codex 团队中,几乎每个人都是全栈工程师。而产品经理呢?他半开玩笑地说你不需要他们。一个强大的工程负责人或具有设计意识的人可以涵盖产品经理所做的一切,而一个不完全适合的产品经理“可能弊大于利”。
人类打字速度瓶颈
最引人注目的观点:人类的打字速度和验证工作是 AGI 的关键瓶颈,而不是模型计算或架构。
Harry 每天使用 AI 30 多次。如果 AI 不需要任何努力就能提供帮助,那么它可以提供多少次帮助?数万次。实际使用量和潜力之间的差距是巨大的,这是由提示的摩擦造成的。
“I work on this stuff. I know I should be using AI for everything, but I’m too lazy to type out that many prompts and I am too uncreative to figure out all the ways that AI can help me.” 我就在做这个的。我知道我应该在所有事情上都使用 AI,但我太懒了,不想打那么多提示词,而且我也没有足够的创造力来想清楚 AI 可以帮我的所有方式。
当 Embiricos 加入 OpenAI 时,他预计一年内会出现多模态屏幕共享代理。他“完全错了”。多模态的进展比预期的要慢。真正的路径原来是代理通过代码和文本工作,独立运行,这样人类就不再是瓶颈。
代理进化的三个阶段
Embiricos 提出了一个清晰的分阶段模型:
第一阶段(当前主流):AI 在你编码时提供帮助。标签补全、结对编程。你坐在笔记本电脑前,双手放在键盘上。这是 Cursor/Copilot 模型。
第二阶段(Codex 当前的目标):你委派任务;代理独立执行。借助 12 月份的 GPT-5.2 Codex,团队达到了一个转折点。“我将完全委派这项任务。我将与它制定一个计划,确保我们喜欢这个规范,然后让它自行完成。”Codex 团队中的大多数人不再打开编辑器。
第三阶段(未来):代理拥有整个微服务。完整的迭代循环,包括用户反馈,无需人工审核。这需要同时解决智能、安全和控制问题。
从第一阶段到第二阶段的关键障碍不是技术,而是用户习惯。在用户熟练使用工具之前,你无法直接跳到工作流程自动化。Codex 在这方面吃尽了苦头:他们的云代理去年率先推出,其绝妙的想法是让代理拥有自己的云计算机,但“效果不太好”。他们转而开发交互式产品以培养用户的熟练度,现在已准备好重返云端。
Codex 应用:委派,而不是结对编程
Codex 应用并非刻意设计成 IDE。没有文本编辑。其心智模型是管理一个团队:你分配任务、提供背景信息、审查计划并等待结果。
“计划模式”是最有价值的功能之一。代理会提出它将如何在一个详细的计划中做某事,然后在执行之前提出问题。就像一个新员工在编写代码之前提交一个 RFC。对计划的审查正变得比对代码本身的审查更重要。
该团队还在大力投资于自动化代码审查。Codex 已经为此进行了专门的训练,并针对少量误报进行了优化,因此你可以信任其反馈。现在,OpenAI 几乎所有的代码在提交时都会由 Codex 自动审查。
agents.md 标准
一个小但意义重大的举动:来自 AMP(隶属于 Sourcegraph 团队)的 Quinn 发推文要求 OpenAI 购买 agents.md 域名,以便他们可以进行标准化。OpenAI 照做了。现在,agents.md 是大多数编码代理之间共享的配置格式(Embiricos 尖锐地没有提及,但显然是 Anthropic 的 Claude,它使用自己的 CLAUDE.md)。
技能也在被标准化,存储在一个中立的 agents/ 文件夹中,而不是特定于工具的目录中。目标:使在代理之间切换变得容易。代理任务是“情景性的”,具有供应商中立的输入 (agents.md) 和输出(git 补丁)。
但这种易于切换是暂时的。随着代理连接到外部系统(Sentry、Google Docs、企业工具),它们会变得更具粘性。企业对代理安全控制的信任成为护城河。
Slack 类比:重心获胜
从他在 Dropbox 的经历中,Embiricos 得出了一个关键的教训。Dropbox 认为用户应该直接在文档上发表评论(更有效率)。相反,每个人都在 Slack 中讨论文档,因为 Slack 是沟通的重心。即使效率较低,它也因习惯而获胜。
应用于 AI:市场将收敛到少数几个超级助手产品。公司不需要 12 个专门的代理。如果员工必须弄清楚哪个代理处理什么,他们将无法达到熟练程度,如果没有熟练程度,他们就不会将自动化融入到他们的角色中。
“Nobody wants to comment on the document. I just want to Slack you.” 没有人想在文档上留评论。我只想在 Slack 上直接和你聊。
获胜的入职方式:“去和它谈谈你需要的一切。”团队分享最佳实践。围绕该工具涌现出黑客马拉松。一个单一的代理成为工作的重心。
SaaS:谁生,谁死
Harry 强烈追问 SaaS 问题。Embiricos 提供了一个清晰的框架:
将生存: 拥有人际关系或记录系统的公司。两者都比以往任何时候都重要。
面临风险: 既不拥有人际关系也不拥有记录系统的“胶水层”公司。
将被颠覆: 客户支持。“我不想进入那个类别。”
Harry 认为 SaaS 的抛售被大大夸大了。Monday.com 用户可以进行氛围编码来创建一个待办事项列表,但定制成本不值得。但 Dropbox,他的直率评估:“处境非常困难。”
投资者的格局也发生了变化。纯粹的产品构建能力是一种投资论点的“暂时异常”正在结束。现在构建好的产品相对容易。投资于具有分销思维和领域专业知识的创始人。安全的选择:物理基础设施(能源)和复杂的关系网络(拥有 500 家银行合作伙伴的东南亚金融科技)。“OpenAI 不会做的事情。”
竞争格局
关于获胜:计算优势和拥有最好的模型,然后建立企业来产生收入,这会产生更快改进模型的压力。一个良性循环。
关于“20 分钟 SOTA”:一个竞争对手在 Codex 的 GPT-5.3 更新前 20 分钟发布了一个模型更新。短暂地成为最先进的技术。然后 Codex 发布并重新夺回了它。
关于 Claude Code:“我认为 Claude Code 首次发布时的天才之处在于,他们拥有一个超级易于使用的工具,无论你在什么情况下,只需在你的终端中使用即可。”来自直接竞争对手的高度赞扬。
关于定价:Codex Cloud 在一段时间内实际上是无限的。当回滚到合理的限制时,一小部分人产生了过度的社会反弹。“你不能让事情无限期地持续下去。”
职业建议:能动性、品味、质量
对于进入职场的计算机科学专业的学生来说:现在是最好的时代。AI 工具让你能够以前所未有的速度进入复杂的代码库。但由于构建变得更容易,因此更稀缺的品质是能动性、品味和质量。
“When someone writes to me with some interesting thoughts and a link to an interesting project, that gets my attention much more than a normal resume does.” 当有人给我写信,提出一些有趣的想法并附上一个有趣项目的链接时,这比一份普通简历更能引起我的注意。
一些想法
一些值得深入探讨的线索:
- “代码生成微不足道,代码审查才是瓶颈”的框架是最重要的结论。如果这是真的,这意味着 AI 编码工具的竞争战场正在从生成质量转向验证质量。首先解决可信的自主代码审查的公司将赢得第三阶段。
- Slack/Dropbox 的类比引人注目,但具有双重意义。如果一个超级助手成为重心,那就是极端的赢家通吃。Embiricos 自己的逻辑表明 OpenAI(凭借 ChatGPT 的分发)处于最佳位置,这使得这与其说是一种分析,不如说是一种定位。
- 他承认自己在多模态代理方面“完全错了”,这令人耳目一新。“所有代理实际上都是编码代理,因为编码只是代理使用计算机的最佳方式”的赌注是一个大胆的说法,到目前为止一直有效,但可能会被计算机视觉方面的突破所推翻。
- 分阶段模型解释了 Codex 似乎不一致的产品举措。首先推出云,然后转向交互式,然后再回到云,这不是犹豫不决;而是发现你不能跳过熟练度这一步。