2026年1月22日 · 播客 · 1h 16min

杰里·特沃雷克：OpenAI 顶尖研究员离职内幕

#通用人工智能时间线#人工智能安全#强化学习#OpenAI#研究文化

曾助力打造 OpenAI 多项重要能力的关键人物离职了，并非因为内斗或倦怠，而是因为他认为整个行业都陷入了局部最优解，而当下最有趣的研究存在于大型实验室之外。

离职

Jerry Tworek 在 OpenAI 工作了近七年，加入时它还是一个 30 人的研究实验室，离开时已成为全球 AI 巨头。他参与或领导了 OpenAI 许多具有重大意义的项目，包括推动了以推理驱动模型为核心的 o1 及其后续产品。这是他离职八天后的首次公开采访。

他的离职并非出于不和。他将其描述为一种自然演变：当 OpenAI 规模较小时，他可以身兼数职，在不同的研究方向之间切换。随着公司扩展到数千名员工，工作变得更加结构化、更加专业化。他所擅长的探索性、高方差的研究，在一个致力于在已知方法上取得可靠进展的大型组织内部变得更加难以开展。

两个结构性矛盾促使他离开。首先，残酷的竞争要求每个季度都持续推出最佳模型，这降低了整体的风险承受能力。其次，组织结构图现在决定了研究范围。他引用了“交付你的组织结构图”的概念：每个团队都有固定的研究边界，因此产出是由组织结构而非最佳研究方向决定的。

此外，AI 领域的高薪也存在悖论：研究人员更加害怕失去职位或经历糟糕的绩效周期，从而倾向于短期、稳妥的投资，而不是高风险的探索。

“When I joined, it was 30 people. You could just walk around and talk to everyone. Now it’s this massive organization, and the nature of the work changes. It’s not that it’s worse, it’s just different from what I want to do.” 我加入时，公司只有 30 个人。你可以到处走动，和每个人交谈。现在它成了一个庞大的组织，工作的性质也发生了变化。这并不是说它变得更糟了，只是和我想要做的事情不同了。

同质化问题

Tworek 最尖锐的批评并非针对 OpenAI，而是针对整个 AI 行业。他称当前各大实验室的状态“极其、极其令人难过”，因为它们都高度同质化：每个实验室都在使用 Transformer，在互联网文本上进行训练，进行 RLHF（基于人类反馈的强化学习），扩大计算规模。这些方法已经完全趋同，以至于 99.9% 的用户无法在盲测中区分不同的模型。

他从强化学习本身的角度来分析这个问题：探索与利用的权衡。整个行业已经完全倾向于利用，从已知方法中榨取微小的收益，而几乎没有人探索根本性的新方向。

“I am definitely extremely, extremely sad that all the AI labs are trying to do the same thing.” 我确实感到极其、极其难过，所有的 AI 实验室都在尝试做同样的事情。

“If you want to do research that deviates from the ML mainstream, there’s almost nowhere to do it, and that’s the thing I am probably the most sad about.” 如果你想做与机器学习主流不同的研究，几乎没有地方可以做，这可能是我最难过的事情。

这种趋同的发生有其合理的原因。Transformer 有效。扩大规模有效。RLHF 有效。但 Tworek 认为，这会造成一种危险的智识上的单一文化。如果每个人都在攀登同一座山，就没有人去检查附近是否有更高的山。他回顾了深度学习的早期，当时存在真正的架构多样性：RNN、CNN、注意力机制、各种训练方案。这种多样性带来了突破。现在，这个领域已经进入了一种舒适的模式。

特立独行者

Tworek 特别指出了三个人，他们是这种同质化的例外，他们始终追求真正不同的想法：

John Carmack 正在从头开始构建一家 AI 公司，拒绝从 Transformer 入手，而是试图从第一性原理出发，思考智能需要什么。他押注于视频游戏环境中的端到端 RL。Tworek 钦佩他那种为了押注于根本不同的事物而忽略当下有效方法的智识勇气。

Ilya Sutskever 在离开 OpenAI 后，创立了 Safe Superintelligence (SSI)，其使命是追求可能与当前范式截然不同的方法。他提出“研究时代即将结束”，暗示重大的发现可能已经掌握在手中。Tworek 指出，Ilya 一直对下一个重大事件有着敏锐的直觉，并在大多数人之前看到了规模化的潜力。

Yann LeCun 继续公开表示，自回归语言模型是实现真正理解的死胡同，而是推动世界模型和联合嵌入架构。尽管许多人对他的批评不屑一顾，但 Tworek 认为 LeCun 可能正在指出一些真正重要的、缺失的东西。

推理革命：Q-Star 和 Strawberry

Tworek 深度参与了后来被称为 Q-Star，并最终以 o1 推理模型形式发布的工作。他回忆了其起源：当每个人都押注于预训练规模化时，少数“梦想家”相信，你可以在语言模型之上叠加强化学习，以解锁仅靠预训练永远无法实现的能力。

关键的洞察是，预训练提供了基础的世界知识，而 RL 在此基础上教授技能。早期在游戏上的 RL（AlphaGo、Dota）之所以失败，是因为模型缺乏世界知识；从头开始训练只能产生“蜥蜴脑”级别的反应。现在，预训练提供了高层次的概念，RL 才能真正发挥作用。

当早期的实验奏效时，团队真正体验到了一种在研究中罕见的事情。

“Sitting in a room and seeing a meaningfully new technology emerge… I think responsible AI researchers should feel some concern in such moments.” 坐在房间里，看到一种具有重要意义的新技术出现……我认为负责任的 AI 研究人员在这种时刻应该感到担忧。

内部的反应是激动人心的。人们意识到这不仅仅是一个渐进式的改进，而是一个质的转变。但也引发了恐惧，既有对这种能力的影响的担忧，也有对如何控制它的担忧。Tworek 证实，2023 年 11 月 OpenAI 的董事会危机与对这种能力飞跃的担忧有关，但他谨慎地指出，这比简单的“董事会看到了可怕的 AI”的说法更为复杂。

从内部看董事会危机

作为在 Sam Altman 被短暂罢免的戏剧性董事会政变期间身处 OpenAI 的人，Tworek 提供了一个经过权衡的内部人士视角。他将其描述为一场“肥皂剧”，但也承认在戏剧性的表象下存在着真实、实质性的问题。

核心的紧张关系存在于两种合理的立场之间：董事会有责任确保公司安全地开发 AI，而实际情况是，罢免一家以如此快的速度前进的公司的 CEO 会造成巨大的混乱。双方都有其道理，而沟通不畅使情况变得更糟。

最让他震惊的是整个事情解决得如此之快，不是因为根本问题得到了解决，而是因为领导层不稳定的实际后果过于严重。同样的安全和治理问题仍然没有得到解答。

两大赌注

当被问及下一个突破将来自哪里时，Tworek 指出了他计划追求的两个领域：

Transformer 之外的新架构。 他认为 Transformer 确实存在局限性，而单靠扩大规模无法解决这些局限性。具体来说，Transformer 以每个 token 固定数量的步骤来处理信息，这与生物智能的工作方式根本不同。一种可以动态地为更困难的问题分配更多计算资源，而不是均匀地分配计算资源的系统，可能是一个阶跃式的变化。“如果没有人做，我会卷起袖子尝试。”

持续学习。 当前的模型在训练后会被冻结。它们无法更新自己的知识，完善自己的技能，或者真正地从个人互动中学习。Tworek 认为这可能是 AGI 之前的最后几个关键能力差距之一。人类没有单独的“学习模式”和“回答模式”；一切都在持续地发生。如果模型无法从它们遇到的数据中学习，它们将永远感到受限。

两者的交集：在经过良好训练的世界模型上成功地进行 RL。谁先做到这一点，谁就会体验到“非常、非常快乐的时刻”。

在视频游戏中训练 AI

Tworek 更具体和实际的赌注之一是在视频游戏中进行训练，将其作为一种训练环境。游戏提供了文本所不具备的东西：一个闭环环境，其中 AI 代理必须采取行动，观察结果，并实时调整其策略。

这与他更广泛的论点相关，即下一个飞跃需要超越对文本的被动预测。语言模型学习预测下一个 token，但它们永远不必根据自己的预测采取行动，或者处理犯错的后果。游戏环境迫使它们进行这种学习。

他提到了 OpenAI 早期在 Dota 2 上的工作，并指出，尽管该研究方向在很大程度上被放弃，转而支持语言模型的规模化，但其核心洞察仍然有效：在丰富的环境中进行 RL 会产生与仅靠文本预测不同的能力。

AGI 时间表：从确定到细微差别

Tworek 对 AGI 的时间表变得更加谨慎，考虑到他在能力开发中心的位置，这一点值得注意。一年半以前，他确信“将 RL 扩展到极限就等于 AGI”。他现在承认需要修正：有些问题只有当你到达下一个阶段时才会显现出来。

今天的模型在编码方面已经足够强大，以至于“如果你十年前把这个展示给别人看，他们会称之为 AGI”。但他个人的定义仍然至少需要持续学习和多模态感知。时间表估计：2026-2029 年。

“People who predict AGI in two years are extrapolating from a curve that I think is about to flatten. The next S-curve hasn’t started yet.” 那些预测两年内实现 AGI 的人正在从一条我认为即将趋于平缓的曲线上进行推断。下一个 S 曲线尚未开始。

他明确地反驳了最激进的预测，认为它们低估了人类认知中仍未被充分理解的部分，以及有多少根本问题尚未解决。

对主要实验室的评估

Tworek 对竞争格局提出了尖锐的评估：

Google 的“卷土重来” 实际上是 “OpenAI 的失误”。一家一开始就领先的公司应该通过适当的执行保持领先地位。Google 最初在几乎所有的机器学习方向上都处于领先地位；OpenAI 通过研究信念和方向性押注来实现差异化，但后来在某些决策和执行速度上出现了失误。

Anthropic 在过去一年中留下了最深刻的印象。Claude 在编码和开发者体验方面建立了一个非常强大的品牌，而它所拥有的计算资源更少，团队规模也更小。“绝对惊人的成就。祝贺。”

Meta 并没有追求差异化的模型，而是使用与行业相当的模型来构建差异化的产品。对于一家拥有世界上最大的社交网络的公司来说，这可能是正确的策略。

AI 研究是否由明星驱动？

Tworek 承认“两者可以同时成立”：OpenAI 中一小部分人取得了突破性的成果，这些成果像瀑布一样影响了整个行业。然而，他很少看到研究人员在更换公司后在新实验室产生同等的影响。研究引擎是公司的文化和结构，而不是特定的个人。

“Run fewer experiments and think about them harder.” 少做实验，多思考。

更重要的是创造一种个人责任感、探索自由和协作的氛围，而不是依赖明星研究人员。

波兰黑手党

一个轻松但具有启发性的线索：Tworek 是一个重要的波兰研究人员集群的一部分，这些研究人员在 OpenAI 和其他主要的 AI 实验室中发挥了重要作用。波兰培养了数量不成比例的精英竞赛程序员，而这种人才管道直接流入了 AI 研究领域。

竞赛编程背景训练了恰当的技能组合：数学严谨性、对算法的熟悉程度以及快速原型设计和测试想法的能力。它也是一种重视解决难题而不是发表论文的文化，这与 OpenAI 早期的研究文化非常吻合。

关于风险和责任

Tworek 对 AI 风险进行了深思熟虑，但并非危言耸听。当前的系统构成真实但可控的风险，主要是通过滥用而不是自主行动。但随着系统变得越来越强大，风险状况也会发生变化。一种能够真正进行推理、计划多步骤行动并以越来越高的自主性运行的模型会带来不同的挑战。

“Working at OpenAI was more stressful than starting your own startup.” 在 OpenAI 工作比创办自己的创业公司压力更大。

他离开大型实验室并追求独立研究的决定，在一定程度上反映了这种观点。他希望研究可能通过设计实现更安全的 AI 的方法，而不是将安全措施附加到越来越强大的系统上。

一些想法

这次对话之所以有价值，恰恰是因为 Tworek 是一个罕见的人物：他对前沿 AI 开发有着深刻的内部知识，并且在离开后愿意坦诚地发言。

趋同性批判是最重要的信号。当一位构建了当前范式的人说每个人都在做同样的事情，而下一个突破需要不同的东西时，这比任何外部分析都更有分量。
他将 AGI 时间表从“全力以赴 2026 年”修改为“2026-2029 年”揭示了一些具体的东西：在 RL 规模化和真正的 AGI 之间存在他未曾预料到的能力差距，尤其是在持续学习方面。你从一个层面看不到的问题在下一个层面变得显而易见。
探索与利用的框架是优雅而具有破坏性的。AI 行业擅长训练智能体来平衡这两种力量，但作为一个行业，它已经完全倾向于利用。高薪、季度竞赛和组织惯性形成了一个系统，系统性地抑制了冒险行为。
视频游戏训练论点是一个具体、可测试的赌注。如果丰富的环境中的 RL 产生质的不同能力，那么投资于此的实验室将具有优势。
OpenAI 董事会危机中未解决的治理问题仍然存在。Tworek 证实，安全担忧是真实的，结构性问题仍然没有解决。该行业已经从这场闹剧中走出来，但没有从根本问题中走出来。

观看原视频 →