跳至正文
← 返回首页

2026年2月12日 · 播客 · 1h 23min

Jeff Dean 谈掌握帕累托前沿:蒸馏、能源经济学与万级 Token 推理

#蒸馏#TPU 协同设计#Gemini#AI 基础设施#推理延迟

这位重写了 Google 搜索索引、从零开始共同设计了 TPU,现在又以首席 AI 科学家的身份领导 Gemini 的人物,坐下来解释了“掌握帕累托前沿”在实践中究竟意味着什么。答案似乎并非在于任何单一的突破,而更多在于一种坚持不懈、全栈优化的理念:你需要最大的模型才能让最小的模型变得优秀。

节目概述

Jeff Dean 加入 Alessio Fanelli 和 Swyx 的 Latent Space 播客,进行了一场广泛的对话,回顾了他从 1990 年的神经网络论文到构建 Google 基础设施,再到领导 Gemini 项目的历程。讨论内容技术性强且具体,从蒸馏机制到能源经济学再到硬件协同设计,Dean 始终避免炒作,专注于工程细节。最终呈现的是一幅由系统性优化驱动的 AI 开发图景,优化贯穿堆栈的每一层,而非仅仅依靠单一的模型突破。

从 1990 年的神经网络到 Google 的搜索革命

Dean 的职业生涯本身就是长期信念的论证。他在明尼苏达大学 1990 年的论文探讨了神经网络的并行训练,这比深度学习革命早了 22 年。他早期就坚信,更大的模型和更多的数据会产生更好的结果,他表示,这一理念坚持了 15 年,之后才被该领域的其他人才接受。

在 Google,他很早就加入了(大约是第 20 名员工),并在最初的十年里构建基础设施。2001 年的关键洞察是将 Google 的整个搜索索引移入 RAM:60 个分片乘以 20 个副本,总共 1200 台机器,将整个索引的一个副本放入内存中。这使得查询能够从用户的 3-4 个单词扩展到 50 个术语,包括同义词(餐厅/咖啡馆/小酒馆),在 LLM 出现之前就实现了“语义软化”。他将这些检索管道与现代 Transformer 架构直接联系起来。

“We moved the entire index into memory in 2001. That was a big deal. And the retrieval pipelines we built then already resemble modern LLM systems.” 我们在 2001 年将整个索引移入了内存。这是一件大事。而且我们当时构建的检索管道已经类似于现代 LLM 系统。

搜索索引在 1999 年至 2004 年间经历了 5-6 次重大重新设计,更新频率从每月一次提高到亚分钟级延迟。BERT 在发布后几乎立即部署在 Google 搜索中,将范式从精确的关键词匹配转变为语义理解。

帕累托前沿策略

Dean 将 Google 的 AI 模型策略围绕帕累托前沿进行构建:这条曲线代表了能力与成本/延迟之间最佳的可实现权衡。掌握这一前沿意味着既要提供用于最大化能力的“Pro”前沿模型,也要提供用于低延迟、高性价比部署的“Flash”模型。

关键的洞察:这些不是独立的产品线。Flash 模型是通过蒸馏从 Pro 模型直接派生出来的。每一代的前沿模型都成为下一代高效模型的教师。这创造了一个飞轮,无论是在哪个方向上推动前沿,都会使另一个方向受益。

“You need the biggest model to make the smallest one good.” 你需要最大的模型才能让最小的模型变得优秀。

当被问及 Flash 最终是否会使 Pro 过时时,Dean 指出用户需求是不稳定的。一年前,人们要求模型编写 for 循环;现在他们要求提供整个软件包或全球可再生能源部署报告。随着能力的提高,期望也会提高,从而保持前沿模型的价值。

蒸馏:每一次 Flash 突破背后的引擎

Dean 将蒸馏追溯到 2014 年与 Geoffrey Hinton 和 Oriol Vinyals 的合作。起源故事:他们在大约 3 亿张图像上训练了大约 50 个专家模型,按类别进行聚类。由此产生的集成模型非常强大,但完全不适合服务。蒸馏的诞生源于将该集成模型压缩为可部署模型的需求。

核心技术是使用大型模型的输出 logits(所有可能 token 上的软概率分布)作为较小模型的监督信号。这比硬标签更丰富,因为 logits 编码了教师的不确定性和概念之间的关系知识。较小的模型可以多次遍历训练数据,因为这种软监督为每个示例提供了更多的学习信号。

演变过程如下:

  • 集成到压缩:将多个专家预测压缩为单个模型
  • Logits 作为软监督:使用完整的概率分布,而不仅仅是顶部预测
  • 渐进式蒸馏:从最大的模型到中间大小的模型进行级联
  • 特定任务蒸馏:针对特定能力微调过程

结果:Gemini 2 Flash 在大多数基准测试中优于 Gemini 1.5 Pro,尽管它更小、更快。教师为学生提供了一条捷径,使其能够通过能力空间,而仅通过在该模型大小下训练原始数据是不可能实现的。Flash 的经济性使其能够部署在 Gmail、YouTube、搜索 AI 模式以及 Google 的整个产品线中。

能源,而非 FLOPs:真正的瓶颈

对话中最引人注目的部分之一是 Dean 坚持认为 AI 社区正在衡量错误的东西。真正的瓶颈不是每秒浮点运算次数;而是能源,以每比特皮焦耳为单位衡量。

他的框架:一次乘法运算的成本约为 1 皮焦耳,但将数据从芯片的一部分移动到另一部分的成本约为 1000 皮焦耳。这 1000 倍的差距意味着数据移动,而不是计算,主导了总能耗。其影响贯穿每一个设计决策:

  • 批处理应该通过能源的视角来理解:您可以将移动权重的成本分摊到多个输入上。批量大小为 1 意味着花费 1000 皮焦耳来获得 1 皮焦耳的有用计算;批量大小为 256 将此比率提高到可接受的水平
  • 推测解码是一种能源优化:使用廉价模型预测 8 个 token,接受其中的 5-6 个,有效地提高了批量维度并分摊了权重移动成本
  • 降低精度非常强大,因为减少比特数会直接减少每次传输的皮焦耳数。以非常低的精度存储权重,但应用缩放向量以恢复表达能力
  • 稀疏模型通过仅加载每个输入所需的权重来减少数据移动

“A multiply costs about one picojoule. Moving data costs about a thousand picojoules. That’s the real bottleneck.” 一次乘法运算的成本约为 1 皮焦耳。移动数据的成本约为 1000 皮焦耳。这才是真正的瓶颈。

关于模拟计算:Dean 认为它在理论上功耗更低,但系统边界处的数模和模数转换开销通常会抵消收益。专用数字硬件仍然具有巨大的效率提升空间。

TPU 协同设计:提前数年预测工作负载

Google 在协同设计 TPU 以及 ML 研究方面的独特地位涉及一个根本性的挑战:硬件设计周期为 2-6 年,因此您必须预测 ML 工作负载在未来几年会是什么样子。

Dean 的方法:识别持久的趋势,而不是押注于特定的架构。矩阵乘法将仍然是核心(10 多年来都是如此)。模型将变得更大,需要更多的内存带宽。稀疏性将很重要(尽管具体的机制不断发展)。低精度算术将越来越有用。

协同设计循环是双向的。ML 研究人员的前沿想法会影响 N+2 代 TPU 的重大变更,或 N+1 代 TPU 的较小调整。相反,芯片特性会影响模型架构,例如当片上内存有限时,会推动研究人员开发更节省内存的注意力机制。

Google 向芯片添加“推测性功能”:如果某项功能的芯片面积成本很低,即使不确定它是否有用,也会将其包含在内。当正确的算法出现时,一些赌注会获得巨大的回报;另一些则仍然未使用。TPU 的 2D/3D 网格互连特别适合长上下文注意力和服务稀疏专家模型。

稀疏模型和万亿参数的未来

Dean 长期以来一直倡导稀疏激活模型。一个万亿参数的模型不需要为每个输入激活所有参数。将每个输入路由到相关的 1-5% 的参数,您就可以获得万亿参数模型的知识容量,而计算成本却远低于此。

Noam Shazeer 在 2017 年发表的“Outrageously Large Neural Networks”论文证明,与密集模型相比,效率提高了 10 倍。这些改进是乘法的:Transformer 比 LSTM 提高了 10-100 倍的效率,稀疏模型又增加了 10 倍,硬件和数据改进在此基础上叠加。这种复合效应解释了为什么 2026 年的模型将大大优于 2023 年的模型。

Dean 将稀疏性与能源论证联系起来:稀疏模型从根本上说是为了减少数据移动。您只需加载与此特定输入相关的权重,这正是当数据移动成本比计算高 1000 倍时最重要的优化。训练稳定性和专家负载平衡仍然是活跃的研究领域。

上下文窗口的错觉

Dean 最具挑衅性的主张:下一个飞跃不会仅仅来自更大的上下文窗口。即使有百万 token 的窗口,适合上下文的内容与用户可能需要模型推理的内容之间也存在根本性的不匹配。二次注意力在 100 万个 token 左右达到极限,无法扩展到万亿个 token。

他的愿景:通过智能检索和分层注意力,使系统能够产生“处理万亿个 token 的错觉”。该架构类似于 Google 搜索本身:从万亿个 token 中,使用轻量级方法识别约 30,000 个候选文档(约 3000 万个 token),使用更复杂的模型细化到大约 117 个最相关的文档,然后使用最强大的模型处理这些文档。

“What you would really want is: can I attend to the internet while I answer my question?” 你真正想要的是:我能在回答问题的同时访问整个互联网吗?

这与个性化 AI 相关:一个已经索引了您所看到的一切(每封电子邮件、照片、视频)的模型,并且可以根据需要检索所有内容。上下文窗口是工作记忆;检索系统是长期记忆。

Gemini 的起源故事

Dean 透露,他写了一份一页的备忘录,认为 Google 通过分散 AI 资源“很愚蠢”。Google Research/Brain 有 LLM 和多模态工作,而 DeepMind 有 Chinchilla 和 Flamingo。这种分散不仅分散了计算资源,还将最优秀的人才和想法分散到相互竞争的团队中。

这份备忘录促成了 Google Brain 和 DeepMind 的合并以及 Gemini 的推出。Dean 自己命名了它,具有双重含义:两个组织像双胞胎一样走到一起,以及 NASA 的 Gemini 计划是通往 Apollo 的关键垫脚石。Gemini 技术报告列出了 10 页的共同作者。目标:训练一个从一开始就擅长一切的统一多模态模型。

关于统一模型与专用模型,Dean 坚定地站在统一模型一边。IMO 数学竞赛的演变是最清晰的证据:从专门的 AlphaProof + AlphaGeometry 系统到仅仅一年内的一个 Gemini 模型(具有更多的推理预算)。他设想“可安装的知识”是一种模块化架构:200 个语言模块、机器人模块、医疗保健模块,可以根据需要进行组合。

编码代理和规范思维

Dean 认为 AI 编码工具在两年内得到了极大的改进,现在能够处理复杂的委托任务。他的“50 个实习生”心理模型:每个人管理 50 个组织成子团队的虚拟代理,5 个人类管理者在彼此之间保持高带宽的沟通。

关键的技能转变:规范质量直接决定代理的输出质量。传统的软件工程总是强调清晰的规范,但没有人真正重视它。现在,如果您没有在规范中涵盖边缘情况、性能要求和极端情况,代理将不会产生您想要的结果。

“Being able to crisply specify what it is you want is going to be really important.” 能够清晰地指定你想要什么将非常重要。

Dean 强调,放置在代理上下文中的通用工程指南(例如,分布式系统的 20 种容错技术的描述)将显着提高代理构建可靠系统的能力。他还指出,包括屏幕截图和图表在内的多模态提示提供了与编码代理的最高带宽通信。

关于迭代方法与一次性方法出现了一个有趣的辩论:使用快速 Flash 模型进行三轮快速迭代并进行人工纠正可能优于对更强大的模型进行一次精心设计的提示。主持人开玩笑说,好的提示“与足够高级的行政沟通无法区分”。

每秒 10,000 个 Token

对话以 Dean 的预测结束,即每秒 10,000 个 token 既是可实现的,也是有意义的。以当前的速度(快速模型约为 100 个 token/秒)来看,思维链推理受到输出速度的限制。在每秒 10,000 个 token 的情况下:

  • 模型可以为代码生成和验证运行大规模并行展开
  • 思维链推理可以探索更多的路径
  • 1,000 个 token 的精心推理代码,背后有 9,000 个 token 的思考
  • 与 AI 代理的交互式开发会感觉是即时的

“It may not end up with 10,000 tokens of code. A thousand tokens of code with 9,000 tokens of reasoning behind it. Which would actually be probably much better code.” 最终可能不会有 10,000 个 token 的代码。1,000 个 token 的代码,背后有 9,000 个 token 的推理。这实际上可能会是更好的代码。

帕累托曲线不断攀升。正如 Dean 所说:“勇往直前,向外拓展。”

一些想法

本集以其工程实用主义而脱颖而出。Dean 不会谈论 AGI 时间表或生存风险。相反,他提供了一个清晰的视角,了解 AI 系统是如何实际构建和改进的,一次优化一个,贯穿堆栈的每一层。

  • 帕累托前沿策略完全重塑了“大模型与小模型”的辩论。这不是一种权衡;而是一种管道。大模型的存在是为了让小模型变得更好
  • 能源框架(皮焦耳,而不是 FLOPs)悄然破坏了许多关于硬件扩展的传统观点。如果数据移动的成本比计算高 1000 倍,那么大多数基准测试都在衡量错误的东西
  • Dean 关于规范比代码编写能力更重要的预测已经开始应验。最好的 AI 辅助开发人员不是最好的编码人员;他们是最好的规范人员
  • “处理万亿个 token 的错觉”表明,模型能力的下一个突破可能根本不是架构上的,而是一个智能检索的系统工程问题
  • Gemini 的起源故事(一份一页的备忘录说 Google “很愚蠢”)是组织干预的典范。有时,最具影响力的技术贡献是适时的组织论证
  • 他对提前 2-6 年进行硬件押注的坦然态度揭示了 Google 的 AI 优势有多少来自基础设施,而不仅仅是算法
观看原视频 →