2026年2月12日 · 播客 · 1h 19min

OpenAI 平台负责人谈工程师为何正在变成魔法师

#AI 智能体#未来工作#OpenAI#软件工程#AI平台战略

工程师不再编写代码，而是管理舰队

在 OpenAI，95% 的工程师使用 Codex。100% 的 PR 都由 Codex 审核。工程师们通常管理着 10 到 20 个代表他们工作的并行 AI 代理。OpenAI 平台工程负责人 Sherwin Wu 描述了一个大多数工程团队尚未赶上的世界：工程师的工作已经从编写代码转变为编排代理、审查他们的输出并决定下一步构建什么。

Sherwin 在 Lenny Rachitsky 的播客中进行了一次广泛的对话，内容涵盖了 AI 如何重塑工程工作、为什么管理者变得不那么重要、即将到来的一人十亿美元创业公司浪潮，以及 OpenAI 在未来 12-24 个月内对模型能力的展望。语气务实且脚踏实地。Sherwin 从机器内部发声。

管理代理是新的工作

最大的转变不是工具，而是工作形态。OpenAI 的工程师现在将大部分时间花在作为“技术负责人”管理代理舰队上，而不是逐行编写代码。Sherwin 将其比作施法：你派遣代理去做事，他们带着结果回来，你评估并重新定向。

这创造了一种新的压力。当人们的代理在工作而他们却看不到发生了什么时，会感到一种真正的焦虑。OpenAI 内部的一个团队正在进行一项实验，使用 100% 由 Codex 编写的代码库，人类永远不会直接接触代码。他们遇到了所有预料之中的问题：当出现问题时，团队不能只是卷起袖子手动修复。他们没有那个安全出口。

并行代理工作流程也改变了你对任务的思考方式。你不再进行顺序的深度工作，而是进行广度优先的探索：启动多个代理来处理不同的方法，评估哪一个有效，然后加倍投入。Sherwin 描述了同时运行 10-20 个代理，这意味着你需要快速切换上下文并保持每个代理正在做什么的心理模型。

代码审查 2 分钟，而不是 15 分钟

一个具体的胜利：OpenAI 使用 Codex 将代码审查时间从 10-15 分钟缩短到 2-3 分钟。每个 PR 在人类看到之前都要经过自动审查。该模型可以发现样式问题、潜在的错误和一致性问题，让人类审查员可以专注于架构和设计决策。

这不仅仅是速度上的提升，它改变了审查文化。当机器处理繁琐的部分时，人类审查员可以将他们有限的注意力集中在真正重要的事情上：方法是否正确，抽象是否有意义，这是否是应该构建的正确事物。

管理者角色的转变

Sherwin 直言不讳：传统的工程经理角色正面临压力。当个人贡献者可以管理代理舰队并将其产出提高 5-10 倍时，IC 与管理者的比例会发生巨大变化。你需要更少的管理者，而你保留的管理者需要更具技术性。

现在重要的管理技能有所不同。它不再是关于项目管理，而是更多关于技术判断：你能评估代理的输出吗？你能发现代理何时走错了方向吗？你能设计正确的问题分解，以便代理可以有效地处理它吗？

Sherwin 给管理者的建议：重新掌握技术。能够像审查人类代码一样严格审查代理输出的管理者将会蓬勃发展。

一人十亿美元的创业公司

Sherwin 认为我们正在进入一人十亿美元创业公司的时代。不是作为一种假设，而是作为一种新兴的现实。当一位工程师可以管理 20 个代理时，一位独立创始人的有效团队规模已经达到 20+。

但二阶效应甚至更有趣。为了实现一人十亿美元的创业公司，你可能需要一百家小型创业公司围绕它构建定制的软件和服务。Sherwin 认为这可能会引发 B2B SaaS 的黄金时代，而不是它的死亡。当个人可以按企业规模运营时，对专业工具和服务的市场需求就会爆炸式增长。

“To enable a one-person billion-dollar startup, there might be a hundred other small startups building bespoke software.” 为了实现一人十亿美元的创业公司，可能需要一百家其他小型创业公司构建定制软件。

模型会把你的脚手架当早餐吃掉

这是 Sherwin 对 OpenAI 平台上构建者的最尖锐的建议。不要过度投资于脚手架、护栏和精心设计的提示链。模型本身正在快速改进，以至于今天的巧妙变通方法会成为明天的原生能力。

他已经多次看到这种模式：团队构建复杂的编排层来弥补模型的局限性，然后新的模型发布使所有这些脚手架变得不必要。构建薄层并与模型的原生能力保持密切联系的团队适应得最快。

“The models will eat your scaffolding for breakfast.” 模型会把你的脚手架当早餐吃掉。

实际意义：为模型的未来发展方向而构建，而不是为今天的现状而构建。OpenAI 产品副总裁 Kevin Weil 有一句 Sherwin 经常引用的话：

“This is the worst the models will ever be.” 这是模型有史以来最差的时候。

不要听取客户的意见（有时）

Sherwin 分享了关于 AI 中客户反馈的反直觉立场：听取客户的意见并不总是正确的策略。该领域和模型变化如此之快，以至于客户的要求通常反映了当前的技术状态，而不是未来的发展方向。在你构建出客户要求的东西时，模型可能已经发展到完全不需要它的地步。

这并不意味着忽略客户。这意味着要理解，在快速改进的能力格局中，正确的产品决策通常是等待模型赶上，而不是构建精巧的变通方法。那些倾向于自我颠覆的团队是那些过度关注当前客户痛点的团队。

未来 18 个月的模型

Sherwin 提供了一个窗口，了解 OpenAI 对未来 12-24 个月的期望：

推理能力会好得多：模型在多步骤推理、规划和自主执行复杂任务方面的能力将得到显着提高。
代理可靠性跨越一个门槛：当前一代的代理在狭窄的任务中表现良好，但在复杂的多步骤工作流程中会失败。这种情况即将改变。能够可靠地在开放式任务上工作数小时的代理即将到来。
成本大幅下降：推理的成本曲线正在暴跌。今天花费数美元的东西将花费几美分。这解锁了目前在经济上不可能的用例。
生产力差距扩大：AI 高级用户和非 AI 用户之间的差距已经很大，并且会变得更大。早期采用者将拥有复合优势。

OpenAI 的平台堆栈

Sherwin 列出了 OpenAI 开发者平台的各个层：

Responses API：最低级别的原语。你发送文本，模型工作一段时间，你得到结果。针对长时间运行的代理进行了优化。最受欢迎的 API 端点。
Agents SDK：一个用于构建具有子代理、护栏和任务委派的代理系统的框架层。处理代理群的编排。
Agent Kit & Widgets：用于在代理之上构建美观界面的 UI 组件。用于常见代理交互模式的标准化组件。
Evals API：用于模型、代理和工作流程的定量测试。让你衡量你的系统是否真的在改进。

该理念是经过深思熟虑的：在底部不带主观意见，随着你的向上发展，主观意见越来越多。从你感到舒适的最低级别开始，仅在需要时才添加抽象。

超越代码的业务流程自动化

虽然大多数注意力都集中在代码生成上，但 Sherwin 认为业务流程自动化方面存在更大的机会。每家公司都有数百个内部流程在电子表格、电子邮件链和手动协调上运行。AI 代理可以以传统企业软件的一小部分成本实现这些流程的自动化。

这就是民主化故事变得真实的地方。你不需要成为一名软件工程师才能使用这些工具。将 ChatGPT 连接到你的 Notion、Slack 和 GitHub。看看它能做什么和不能做什么。了解现在的局限性，以便你可以随着模型的改进而关注这一趋势。

一个难得的窗口

Sherwin 于 2014 年进入职场。他描述了科技领域在五到六年内并没有特别令人兴奋的一段时间。过去三年是他职业生涯中最充满活力的一段时期，他预计未来两到三年将是延续。

他的信息是：不要认为这个窗口是理所当然的。在某个时候，这波浪潮将会结束并变得渐进。与此同时，积极参与。构建事物。使用工具。你不需要在 X 上跟踪每一个新版本。从一两个工具开始，并真正参与到可能的事情中。

“The next two to three years are going to be some of the most fun in tech and in the startup world that we’ll have in a very long time.” 未来两到三年将是科技界和创业界很长一段时间内最有趣的时期。

后记

这次对话的价值不在于任何单一的启示，而在于它提供了在世界上最先进的 AI 工程组织内部工作的真实感受。以下几点值得思考：

100% Codex 代码库实验是最能说明问题的细节。它揭示了雄心壮志和对失败模式的诚实评估。“当代理失败时，你不能只是卷起袖子”这一事实是这种新范式的决定性约束。
“模型吃掉脚手架”的洞察力是构建者最可操作的要点。这是一个强有力的论据，支持保持轻量级、与模型保持密切联系，并抵制过度设计的冲动。
Sherwin 将 B2B SaaS 定位为一人创业趋势的受益者，而不是受害者，这是一个值得关注的逆向观点。如果他是对的，那么目前关于 AI 杀死 SaaS 的恐慌恰恰是倒退的。
AI 高级用户和所有其他人之间不断扩大的生产力差距也许是他提出的最重要趋势。这不是一个技术故事，而是一个劳动力市场的故事。

观看原视频 →