2026年2月13日 · 播客 · 2h 22min
Dario Amodei:我们正接近指数增长的尾声
指数增长即将结束,并非因为进步放缓,而是因为人工智能模型即将在大多数认知领域达到人类专家级别的表现。这是 Dario Amodei 的核心观点,即使以他的标准来看,这种直率也非同寻常:在 2-3 年内,我们将拥有相当于“一个数据中心里的天才之国”的系统。最让他惊讶的不是技术本身,他说技术的发展大致符合预期,而是公众几乎完全没有意识到这个拐点有多么临近。
节目概述
这是 Amodei 第二次出现在 Dwarkesh Patel 的播客中,距离他们的第一次对话已经过去了三年。对话涵盖了非凡的范围:规模定律和强化学习的技术机制、前沿人工智能实验室的经济学、地缘政治、监管以及接近超人智能的哲学含义。Amodei 对 Anthropic 的财务状况、竞争态势以及他自己的不确定性异常坦诚。这次对话具有 CEO 实时压力测试自己世界观的性质。
堆叠的 S 曲线,而非一条平滑的线
Amodei 通过一个特定的视角来构建当前的人工智能进展:指数增长不是一条平滑的曲线,而是一系列堆叠在一起的 S 曲线。预训练规模化是第一个。强化学习是当前的。问题在于,在任何单一范式耗尽自身之前,是否有足够的堆叠 S 曲线来达到变革性的能力。
他的关键技术洞察:强化学习之所以有效,是因为它将计算转化为“思考时间”。一个模型在推理时花费 10 倍的计算量可以解决难度大得多的问题。这是一种与预训练截然不同的机制。预训练使模型更聪明;强化学习使其思考更长时间。这种组合是将代码生成推向接近超人性能的原因,而其他领域则相对滞后。
为什么代码优先?因为代码有一个天然的验证器:你可以运行它并检查它是否有效。强化学习需要一个奖励信号,而代码提供了一个清晰的信号。Amodei 预计其他领域也会效仿,因为验证方法会得到改进,但他承认当前前沿领域的不平衡。
他重申了他 2017 年的“计算大斑点假说”(他指出这比 Rich Sutton 2019 年的“痛苦的教训”早了两年),列出了七个核心要素:原始计算、数据量、数据质量和分布、训练时长、可扩展的目标函数以及用于数值稳定性的归一化/条件化。强化学习规模化遵循与预训练相同的对数线性模式,这不仅适用于数学竞赛,也适用于广泛的任务。
“The most surprising thing has been the lack of public recognition of how close we are to the end of the exponential.” 最令人惊讶的是,公众几乎完全没有意识到我们离指数增长的终点有多近。
持续学习问题
Dwarkesh 提出了一个核心挑战:人类员工的独特价值在于在职学习。他以视频编辑为例,认为当前的模型很难匹配六个月的累积背景理解。
Amodei 的回应是将此重新归类为一个可能不存在的问题。他认为,预训练泛化 + 强化学习泛化 + 百万 token 的上下文窗口可能已经足够。他的类比:预训练既不是人类学习也不是进化,而是介于两者之间。模型从随机权重开始(比人类更“空白”),但训练后的知识广度远远超过任何个人。
他说,上下文长度是一个工程和推理问题,而不是一个研究问题:在更长的上下文中进行训练,并在推理端解决 KV 缓存存储问题。他的预测:在 1-3 年内实现完全的远程工作者能力,99% 确信在十年内实现。
但他补充了一个关键的警告:如果模型能力与现实世界表现之间存在根本差距,那么它最有可能出现在无法验证的任务领域,例如规划火星任务、做出根本性的科学发现或创作一部伟大的小说。在这些任务中,没有清晰的奖励信号,验证需要数十年。
编码生产力谱
Amodei 提出了一个精确的层级结构,值得我们内化:
- 90% 的代码由模型编写
- 100% 的代码由模型编写
- 90% 的端到端软件工程任务由模型处理
- 100% 的端到端软件工程任务
- 对软件工程师的需求减少 90%
每个步骤都代表着截然不同的经济影响水平,将它们混淆是一个常见的错误。
Anthropic 内部的当前现实:模型提供了大约 15-20% 的全要素生产率加速,高于六个月前的约 5%。一些工程师根本不编写代码;GPU 内核和芯片相关工作完全委托给 Claude。
Dwarkesh 引用了一项研究,其中开发者报告说使用人工智能后感觉更有效率,但实际产出(合并的 PR)下降了 20%。Amodei 的尖锐回应:在 Anthropic 内部,这种影响是明确的。“这里没有时间浪费。没有时间让我们在没有效率的时候感觉自己有效率。”
为什么递归的自我改进还没有创造出持久的竞争优势?因为编码优势仍在积累,我们才刚刚达到“开始重要”的门槛。此外,公司无法完美地阻止竞争对手在内部使用他们的模型。
“There is zero time for bullshit. There is zero time for feeling like we’re productive when we’re not.” 这里没有扯淡的时间。没有时间让我们在没有效率的时候感觉自己有效率。
盈利悖论
这是最具启发性的部分之一。Amodei 解释了为什么前沿人工智能实验室面临着与其他技术业务不同的结构性盈利挑战。
核心问题:每个单独的模型,一旦经过训练,都是有利可图的。边际服务成本远低于客户支付的费用。但是,前沿实验室的生产函数需要不断训练下一个模型,这比上一个模型花费更多。停止训练,你可以在两个月内盈利,然后就会过时。
这创造了一个跑步机,收入增长,但所需的投资也在增长。Amodei 重新定义了这个问题:盈利与亏损从根本上来说是一个需求预测问题。准确预测需求,人工智能实验室本质上是有利可图的。高估了需求,你就会亏损,但拥有丰富的研究计算资源。低估了需求,你就会盈利,但受到计算资源的限制。
关键数字:
- Anthropic 的收入轨迹:2023 年从 0 到 1 亿美元,2024 年从 1 亿美元到 10 亿美元,2025 年从 10 亿美元到 90-100 亿美元,仅 2026 年 1 月就增加了数十亿美元
- 行业范围内的计算量大约每年增长 3 倍:2026 年约为 10-15 吉瓦,2027 年约为 30-40 吉瓦,2028 年约为 100 吉瓦,2029 年约为 300 吉瓦。每个吉瓦每年的成本约为 100-150 亿美元
- Anthropic 计划在 2028 年实现盈利,这并非出于保守,而是因为数据中心的采购需要 1-2 年的提前期
“If you’re off by only a year, you destroy yourselves. That’s the balance.” 如果你只差一年,你就会摧毁自己。这就是平衡。
他将行业结构比作古诺寡头垄断:3-4 个参与者,极高的进入壁垒(类似于云计算),但产品差异化程度高于云计算。Claude 在不同的方面比 GPT 或 Gemini 更出色。
“I get the impression that some of the other companies have not written down the spreadsheet, that they don’t really understand the risks they’re taking.” 我的印象是,其他一些公司没有建过模型,他们并不真正了解自己正在承担的风险。
为什么不把一切都押在计算上?
Dwarkesh 提出了一个显而易见的问题:如果 Amodei 真的相信 AGI 将在 2-3 年内到来,为什么 Anthropic 不把每一美元都花在计算上?成为第一个的预期价值似乎证明了巨大的支出是合理的。
Amodei 的回答揭示了一个复杂的风险框架:
- 时间不确定性:即使有很高的信念,可能的时间线的分布范围也很广。在任何一个方向上错误 2 年都会极大地改变最佳策略。
- 组织规模化的限制:购买计算资源很容易;建立团队和系统来有效地使用它是瓶颈。
- 资本保全:如果时间线推迟哪怕一年,一家过度投资的公司可能会在获得回报之前耗尽资金。
- 安全考虑:更快地行动会增加部署风险。一次重大事故可能会使整个领域倒退,使其成为一个商业考虑,同时也成为一个道德考虑。
扑克类比:正确的策略不是在每一手牌都有优势时都孤注一掷,而是调整赌注大小以应对差异。
Claude 代码的起源故事
Claude 代码最初是 Anthropic 的一个内部工具。在 2025 年初,Amodei 鼓励尝试使用编码加速;该工具最初被称为 Claude CLI。在 2500 人的工程团队中获得了极高的内部采用率之后,向外部发布的决定很简单:产品与市场的契合度已经得到验证。
反馈循环优势是真实的:内部开发人员每天都在使用它,从而推动了快速迭代,同时模型本身也针对编码用例进行了优化。“这就是我们构建编码产品而不是制药公司的原因,”Amodei 说。构建人工智能和使用人工智能来构建人工智能之间的循环在软件中最为紧密。
监管:衡量错误的东西
Amodei 对人工智能监管的看法比典型的行业立场更为细致。他原则上支持监管,但对监管的实施方式持严厉批评态度。
他的核心论点:当前的方法侧重于计算阈值(训练模型花费了多少)而不是能力阈值(模型实际可以做什么)。这就像根据发动机制造成本而不是最高速度来监管汽车。
基于计算的方法在三个方面失败:
- 它惩罚效率(一个用更少的计算资源训练出更好的模型的实验室面临的监管更少)
- 它创造了有利于现有企业的进入壁垒
- 它没有捕捉到实际风险,实际风险来自能力,而不是成本
他称田纳西州禁止人工智能情感支持的法案“愚蠢”,但也反对全面禁止州人工智能监管的联邦禁令。他的理由是:在没有联邦计划的情况下禁止所有州监管是不负责任的,因为存在生物恐怖主义和其他具体风险。
他提出的路径:首先是透明度标准(已经在进行中),然后在特定风险出现后迅速制定有针对性的立法,例如强制性的生物分类器。“想要赚钱的力量太强大了”,监管摩擦无法阻止发达国家采用人工智能。食品药品管理局的改革比聊天机器人禁令更重要。
“If we ban the development of something in the US, we haven’t banned it. We’ve just ensured it gets developed somewhere with less safety culture.” 如果我们在美国禁止某项技术的开发,我们并没有真正禁止它。我们只是确保它在安全文化更弱的地方被开发出来。
美中:最危险的游戏
Amodei 在地缘政治问题上直言不讳。他坚定地支持芯片出口管制,批评现状:“即使国会两党的几乎所有人都支持它,而且反驳的理由坦率地说很可疑,但它并没有发生,因为有太多的钱与此相关。”
他反对美国和中国都拥有“一个数据中心里的天才之国”,认为核威慑逻辑不适用于人工智能。核结果是确定的(相互毁灭);人工智能冲突具有不确定的结果,可能造成不稳定。他还担心专制政府利用人工智能来压迫自己的人民。
三个具体建议:
- 不要向中国出售芯片和数据中心,但要出售人工智能衍生的产品(如药物),以避免切断利益
- 在非洲建立数据中心,以发展当地产业,而不是将所有人工智能基础设施集中在富裕国家
- 探索人工智能是否可以固有地瓦解专制结构,例如,保护公民免受监视的个人人工智能代理
关于发展中国家:他担心硅谷的 GDP 增长 50%,而其他地区停滞不前的局面。他的重点是慈善事业和当地产业发展,以防止这种分裂。
扩散速度层级
即使拥有超人人工智能,Amodei 估计大多数经济价值也需要 5-10 年才能实现。他通过三个类别来分解原因:
纯软件任务(写作、编码、分析):几乎立即采用。已经在发生转变。
受物理因素限制的任务(药物开发、制造):将大大加速,但面临现实世界的限制。临床试验仍然需要时间。工厂仍然需要建造。
受制度因素限制的任务(教育、治理、医疗保健服务):转变最慢,因为它们需要改变人类行为、法规和社会规范。
“Even if you had a million copies of the best AI researcher, you still can’t make a clinical trial go faster than biology allows.” 即使你拥有一百万个最好的 AI 研究员副本,你仍然无法让临床试验比生物学允许的更快。
Claude 的宪法:原则高于规则
Amodei 解释说,根据原则而不是规则训练模型会产生更好的行为。规则不能很好地推广;原则更有效地涵盖了边缘情况。Claude 位于可纠正性谱的末端:默认行为是遵循用户指令,拒绝仅限于真正危险的请求。
三个反馈循环塑造了宪法:Anthropic 的内部迭代、不同公司方法之间的竞争(机构选择)以及更广泛的社会参与(如之前的集体智能项目实验)。一个更激进的可能性:立法要求人工智能宪法包含某些基线条款。Amodei 认为这目前过于僵化,但在原则上是可行的。
什么让他夜不能寐
他的担忧不是按概率排序,而是按其相互作用的潜力排序:
- 国家行为者的滥用:不是流氓人工智能,而是政府利用人工智能进行监视、控制和战争。“通往反乌托邦最可能的道路是专制政府拥有强大的人工智能,而不是人工智能变得流氓。”
- 经济破坏超过适应能力:如果人工智能取代工作的速度快于创造新角色的速度,政治反弹可能导致使每个人都变得更糟的政策。
- 实验室事故:不是科幻场景,而是部署在规模上才显现出微妙错位的系统。
- 权力集中:少数公司或政府控制有史以来最强大的技术。
关于智能爆炸,他认为“缓慢起飞”更有可能,主要是由于物理限制:芯片制造提前期、长达数月的训练运行、安全测试瓶颈。但“缓慢”可能仍然意味着在 5-10 年内发生变革性变化,这在历史上是令人难以置信的快。“正确的情绪是谨慎的敬畏。”
“Some very critical decision will be some decision where someone just comes into my office and is like, ‘Dario, you have two minutes. Should we do thing A or thing B?’” 某些极其关键的决定,就是有人走进我的办公室说:”Dario,你有两分钟。我们应该做 A 还是做 B?”
一些想法
这次对话的价值不在于任何单一的预测,而在于罕见地一窥前沿实验室 CEO 实际上如何推理不确定性。Amodei 不是在推销;他正在压力测试他自己的现实模型。
- 盈利悖论是最引人注目的框架:人工智能实验室陷入了软件经济学(高单位利润率)和半导体经济学(巨大的每代资本支出)之间。市场增长是否足够快以维持这种跑步机确实是不确定的,而 Amodei 对这种不确定性的诚实本身就具有启发性。
- 他的扩散速度层级,将纯软件任务与受物理和制度因素限制的任务分开,解决了大多数“AGI 何时会改变经济”的争论。答案完全取决于你询问的是哪个类别。
- 无论政治立场如何,监管论点都值得关注:监管投入(计算)而不是产出(能力)确实会激励错误的事情,惩罚效率并奖励蛮力。
- 对竞争对手的含蓄评论异常坦率。反复暗示其他公司“没有写下电子表格”并且正在经历“不连贯和人们互相争斗”表明了对 Anthropic 战略清晰度的真正信心。
- 也许最能说明问题的是:当被问及如果 AGI 真的迫在眉睫,为什么他不把公司押上时,他的回答本质上是“因为我可能会犯错,而犯错和破产的成本高于正确但稍微晚一点的成本。”这种认知上的自律在科技领导者中非常罕见。