跳至正文
← 返回首页

2026年2月10日 · 演讲 · 1h 18min

杰夫·迪恩:我们如何走到今天,现在能做什么,以及人工智能的未来方向

#Google DeepMind#科学领域的 AI 应用#规模化#机器学习#AGI 路线图

杰夫·迪恩(Jeff Dean)在系统工程和机器学习的交叉领域工作了三十年,先是构建了使谷歌搜索得以运行的基础设施,然后共同领导了 Gemini 项目,该项目产生了谷歌的前沿模型。当他在普林斯顿大学谈论“人工智能的重要趋势”时,他讲述的是一个他参与撰写的故事。

演讲内容

迪恩受邀参加普林斯顿大学计算机科学杰出讲座系列,发表了一场长达 78 分钟的关于人工智能发展轨迹的全面演讲。演讲的结构就像一堂历史课,先是快速回顾历史,然后展示各种能力,最后展望未来。听众是学术界的,语气是谨慎的,但其根本信息是明确的:变化的步伐不会放缓,最具影响力的应用尚未到来。

普林斯顿大学教授李凯在介绍迪恩时提到,他在 20 世纪 90 年代在 Digital Western Research 认识了他,称他“长期以来一直默默地非常出色”,并指出迪恩在“神经网络还不流行的时候”就完成了关于神经网络的本科毕业论文。

每年 10 倍的计算曲线

迪恩以一张图表作为开场,这张图表贯穿了整个演讲:自 2011 年以来,训练最先进模型的计算成本大约每年增长 10 倍。这不是摩尔定律(大约每 18 个月翻一番),而是更激进的增长,这得益于三个同时发生的趋势:

  1. 硬件:从通用 CPU 到专用 ML 加速器(GPU,然后是谷歌的 TPU)。谷歌在 2013 年开始构建 TPU,正是因为他们意识到“如果每个人每天使用语音识别三分钟,我们就需要将数据中心扩大一倍。”
  2. 数据:从精选数据集到互联网规模的训练语料库的转变。
  3. 算法创新:更好的架构、训练技术以及 2017 年 Transformer 的突破。

关键的洞察力:这三条曲线相互叠加。硬件变得更快,数据集变得更大,算法在利用两者方面变得更有效率。迪恩量化了这一点:大约 20 倍的规模改进乘以 50 倍的算法改进,相当于在此期间能力提升了 1000 倍。

“We went from things that could do interesting pattern matching in narrow domains to systems that can genuinely help with complex, open-ended tasks.” 我们从只能在狭窄领域进行有趣的模式匹配的系统,发展到可以真正帮助处理复杂、开放式任务的系统。

起源故事:Google Brain 诞生于一个小型厨房

迪恩揭示了后来成为最具影响力的人工智能研究小组之一的 Google Brain 的令人惊讶的随意起源。2011 年,他在谷歌的一个小型厨房里遇到了吴恩达。吴恩达提到他的斯坦福大学学生正在使用神经网络进行语音和视觉研究。迪恩说:“我们有很多计算机。为什么我们不训练非常大的神经网络呢?” 这就成了 Google Brain。

他们构建了 DistBelief,这是一个异步分布式训练系统,可以训练比之前报道的任何神经网络大 50-100 倍的神经网络。一个早期的实验:在没有标签的情况下,在 1000 万个随机 YouTube 帧上进行训练。该模型自发地学会了检测猫脸、人脸和身体轮廓。使用这种无监督的预训练进行初始化,在 ImageNet 22K 的最先进水平上产生了 70% 的相对改进。

迪恩还分享了一个个人的转折:他 1990 年的本科毕业论文是关于并行神经网络训练的,探索了模型并行和数据并行。但他犯了一个关键的错误,未能随着处理器的增加而扩展模型,然后“忽略了神经网络 25 年”。

从感知到推理:能力转变

迪恩按时间顺序回顾了各个里程碑,但叙事主线是关于能力转变:

2011-2014:感知。 语音识别的准确性大幅提高。图像分类从 ImageNet 上的“有趣的演示”变为“比大多数人更好”。谷歌将这些集成到产品中:语音搜索、照片识别、翻译。

Word2Vec 和语义空间。 训练词向量来预测周围的词语,揭示了猫/美洲狮/老虎在高维空间中聚集在一起,并且方向带有语义意义(国王减去王后对应于男人减去女人)。

序列到序列学习。 Ilya Sutskever、Oriol Vinyals 和 Quoc Le 的编码器-解码器架构实现了神经机器翻译,取代了旧的基于短语的系统。迪恩展示了一张令人震惊的图表:谷歌翻译从切换到神经模型后的质量提升“相当于旧系统过去十年总进步的总和,一步到位。”

Transformer (2017)。 解决了 LSTM 的两个根本问题。首先,顺序依赖性阻止了并行化。其次,将所有历史压缩到一个向量中会丢失信息。Transformer 的关键洞察力:保存所有向量,并通过可学习的注意力机制来关注它们。结果:以等效的质量减少 10-100 倍的计算量。迪恩指出,这是他被引用最多的论文,引用次数超过 15 万次。

大规模的自我监督学习 (2018+)。 几乎无限的文本数据通过预测下一个词或填空提供了丰富的监督。这是解锁在整个互联网上进行训练的洞察力。

TPU:诞生于一场危机

这次演讲中最具启发性的故事之一是谷歌张量处理单元的起源。迪恩做了一个粗略的计算,表明将一个新的语音识别模型部署到 10 亿用户(每人每天 3 分钟)将需要使谷歌的整个计算机机群扩大一倍。所讨论的模型只是一个在海量数据上训练的 8 层全连接神经网络,但它相当于将“20 年的语音研究进展压缩”到一个系统中。

“If we wanted to deploy this to a scenario where we had a billion users talking to this model 3 minutes a day, we would need to double the number of computers Google had.” 如果我们想将此模型部署到有 10 亿用户每天与此模型对话 3 分钟的场景中,我们需要将谷歌拥有的计算机数量增加一倍。

这迫使谷歌构建定制芯片。神经网络的两个属性使专用芯片成为可能:7-8 位精度足以进行推理(无需 16/32/64 位),并且几乎所有模型都由一小组线性代数运算组成。

结果是惊人的。TPUv1 比当时的 CPU 和 GPU 快 15-30 倍,能效高 30-80 倍。它成为 ISCA 50 年历史上被引用最多的论文。到第六代 (Ironwood) 时,每个 pod 的性能是 TPUv2 的 3,600 倍,能效大约提高了 30 倍。

迪恩还描述了一个大规模的引人入胜的工程挑战:静默数据损坏。在数千个芯片中,有些芯片会非确定性地产生不正确的结果,有时与温度相关。单个指数位翻转可以传播 10^20 的梯度。谷歌的对策包括监控每层的梯度范数、自动确定性重放(重新运行同一批次;不同的结果表明硬件故障)、热备用 pod 以及通过 Pathways 系统进行透明替换。

稀疏模型:真正有效的类脑比喻

迪恩用一个他显然很喜欢的比喻介绍了混合专家模型:“当您担心垃圾车撞到您的汽车时,您大脑中莎士比亚诗歌的区域不会激活。” 稀疏模型通过学习的路由机制将不同的输入路由到不同的“专家”。 关键优势:以等效的准确度减少 8 倍的训练计算量,或者以等效的计算量获得明显更好的模型。

Pathways 系统将数万个 TPU 芯片抽象成一台巨大的计算机,处理 pod 内的自定义互连、pod 间的数据中心网络、跨建筑物和跨区域的通信以及硬件故障恢复。TPUv4 引入了光互连,使相距 100 米的机架在网络拓扑中看起来是相邻的。

Gemini:统一而非碎片化

迪恩透露,Gemini 的起源是他观察到“谷歌的多个团队分别构建语言和多模态模型是很愚蠢的。” 他们应该汇集计算和想法。该项目于 2023 年 2 月启动,汇集了 Google DeepMind、Google Research 和其他 Google 团队。超过 1,000 名合作者在湾区、伦敦和全球办事处工作,加利福尼亚和伦敦之间“只有大约三个不太糟糕的重叠时间”。

该团队已经生成了 5,000 多个内部 RFC(征求意见稿),范围从一页的早期想法到完整的技术报告。他们的实验策略:运行许多小规模的实验,只将有希望的实验推进到中等和大规模,将成功的实验纳入新的基线,然后重复。

关键的设计决策:

  • 原生多模态:从一开始就使用交错的文本、图像、音频、视频以及少量的 LiDAR 和机器人控制数据进行训练。最近的版本添加了音频和视频解码器。
  • 五代:Gemini 1、1.5、2、2.5 和 3。Flash 模型已经连续 3-4 代超越了上一代的 Pro 模型。
  • 蒸馏管道:Pro 规模的模型被蒸馏成 Flash 规模的模型。迪恩指出,3% 的训练数据加上蒸馏大约与 100% 数据的基线性能相匹配。

百万 token 的上下文窗口

最具有技术趣味性的部分之一介绍了 Gemini 扩展到百万 token 上下文。迪恩精确地区分了上下文和训练数据:

“Training data is trillions of tokens stirred into hundreds of billions of parameters, a bit muddled. Context is 900 pages of unmixed raw text, very crisp.” 训练数据是数万亿个 token 搅入数千亿个参数中,有点混乱。上下文是 900 页未混合的原始文本,非常清晰。

实际意义:您可以将整个代码库、整本书或数小时的视频输入到模型中,并提出相关问题。迪恩演示了包括分析一部 44 分钟的巴斯特·基顿无声电影、处理整个存储库以查找细微错误以及阅读所有阿波罗 11 号的文字记录以回答特定的任务问题。

他的前瞻性愿景:通过结合学习的检索算法、轻量级的相关性评分模型以及将最相关的内容放入上下文窗口,将规模从百万 token 扩展到万亿 token。应用包括“个性化 Gemini”(经许可处理您的所有电子邮件和照片)以及关注整个代码库的编码代理。

推理:隐藏的瓶颈

迪恩花费大量时间用于推理优化,他显然认为这是一个被低估的领域:

思维链 (2022):让模型展示其工作原理实际上赋予了更多的推理时间计算。这在数学基准测试中产生了显着的准确性提高,迪恩将其标记为“记住这一点”的伏笔。

推测性解码 (2023):自回归解码受内存带宽限制,而不是受计算限制。快速草稿模型生成接下来的约 8 个 token,大型目标模型并行验证它们,接受正确的前缀。无需重新训练,无需架构更改,保证相同的输出分布,并显着提高推理速度。

强化学习:来自三个来源的奖励信号:人类反馈 (RLHF)、机器反馈(奖励模型)和可验证的领域(数学证明、代码编译加上单元测试)。迪恩认为“提高 RL 在不可验证领域中的有效性”是一个重要的开放研究问题。

IMO 金牌

迪恩将其作为演讲的标志性成就。2025 年,一个通用的 Gemini Pro 模型(不是专门的系统)在国际数学奥林匹克竞赛中解决了 6 个问题中的 5 个,获得了金牌,该模型具有较高的推理时间思考预算。前一年仍然需要专门的几何模型和定理证明器。

进展是惊人的:从 GSM8K(小学数学)到 IMO 金牌仅用了两年时间。迪恩将其归因于思维链推理、来自可验证奖励的强化学习和规模的结合。

人工智能助力科学:悄然巨大的前沿

最充满激情的部分侧重于人工智能对科学研究的影响。迪恩认为,人工智能最终将在此领域产生最具变革性的影响,但它受到的关注却不如消费者应用程序。

天气预报。 谷歌的 GenCast 模型产生的中期预报(长达 15 天)比之前的黄金标准欧洲中期天气预报中心 (ECMWF) 更准确。它在单个 TPU 上用 8 分钟生成 15 天的概率预报,而超级计算机则需要数小时。迪恩展示了它成功预测了飓风李在新斯科舍省登陆,比 ECMWF 模型提前了 6 天。

蛋白质结构。 AlphaFold 从预测单个蛋白质结构发展到预测蛋白质复合物的结构及其与其他分子的相互作用。AlphaFold 3 可以预测涉及蛋白质、DNA、RNA 和小分子复合物的 3D 结构,这对于药物设计至关重要。

材料科学。 谷歌的 GNoME 项目使用人工智能发现了 380,000 种新的稳定无机材料,将已知的稳定材料宇宙扩大了一个数量级。许多材料在电池、超导体和太阳能电池中具有潜在的应用。独立的实验室已经通过实验验证了其中 700 多个预测。

虚拟生物学。 迪恩描述了一个“虚拟细胞”的概念:构建细胞过程的模拟,可以预测干预措施的结果,然后再进行昂贵的湿实验室实验。

“The pace of scientific discovery is fundamentally bottlenecked by human ability to process information and explore hypothesis spaces. AI can dramatically expand both.” 科学发现的步伐从根本上受到人类处理信息和探索假设空间的能力的限制。人工智能可以极大地扩展这两者。

代理和计算机使用前沿

前瞻性部分涵盖了迪恩认为的下一个主要能力前沿:可以使用工具、浏览界面并自主执行多步骤任务的人工智能代理。

他描述了 Mariner 项目及其演变为更通用的代理能力:可以使用 Web 浏览器、填写表格、在站点之间导航并完成复杂任务的人工智能。 “深度研究”功能受到了特别关注:您给它一个主题,它创建一个研究计划,执行多步骤的 Web 搜索,阅读数十个来源,并综合一份全面的报告。

迪恩的愿景:从单人聊天机器人互动转变为人类协调数十个或数百个人工智能代理。他提出的开放性问题:“管理 50 个虚拟助手的正确 HCI 范例是什么?”

问答环节:安全、幻觉以及对研究人员的建议

关于人工智能安全:迪恩认为安全问题“有点被夸大了”,他认为谨慎的工程设计可以实现安全部署。他更担心近期的虚假信息,因为现在可以制作极其逼真的虚假视频和音频。这使他的立场明显比 Hinton 和 Bengio 等同行更为乐观。

关于幻觉:关键技术是多次展开加上模型自我评估,使用更多的推理计算来降低幻觉率,这与 IMO 竞赛中使用的方法相同。

关于世界模型:Gemini 模型已经具有世界模型能力。Genie 3 可以通过文本提示生成具有空间一致性的交互式虚拟世界。Waymo 合作使用它来生成长尾测试场景(例如,“一头大象出现在道路中间”)。

关于计算资源有限的研究:这可能是迪恩最有价值的实用建议。关注跨尺度的趋势斜率,而不是绝对值。在超小/小/小规模上运行实验并观察曲线:

“If the slope looks good but it’s below the baseline, that’s a really interesting idea. If it’s above the baseline at the smallest scale but rapidly plummeting, that’s less interesting.” 如果斜率看起来不错,但低于基线,那将是一个非常有趣的想法。如果它在最小的尺度上高于基线,但迅速下降,那就没那么有趣了。

他敦促学术界奖励“不同且有趣”的工作,而不是增量式的最先进的改进。

一些想法

杰夫·迪恩的演讲的价值不在于任何单一的启示,而在于它提供了一个全景式的视角,来自一个在整个旅程中一直身处机器房的人。

  • 每年 10 倍的计算曲线是人工智能中最重要的图表。它不是物理定律,但它已经持续了 15 年,迪恩没有看到它中断的迹象。如果它继续下去,2028 年的模型将以当今 100 倍的有效计算量运行。
  • 相对于其潜在的影响,人工智能助力科学的研究被大大低估了。天气预报、材料发现、蛋白质结构预测和虚拟生物学各自都具有变革性。它们共同代表了科学方法本身的根本加速。
  • “上下文是清晰的,训练数据是混乱的”这种区分是理解为什么百万 token 上下文窗口能够实现质的不同能力而不仅仅是量的增加的真正有用的心理模型。
  • 迪恩的安全立场与 Hinton/Bengio 阵营的背离引人注目。他的前合作者警告存在生存风险,而迪恩则将挑战定义为工程问题:虚假信息、幻觉、劳动力转型。这是否反映了真正的信念或制度定位,留给读者自行判断。
  • 他关于通过趋势斜率而不是小规模的绝对性能来评估研究的建议是整个演讲中最实用的见解之一。这是一种为没有谷歌规模计算资源的实验室普及人工智能研究的方法。
  • Gemini 团队内部超过 5,000 份内部 RFC 是一个尚未被广泛报道的细节。它揭示了前沿模型开发所需的知识管理规模之大,这是任何学术实验室都无法复制的。
观看原视频 →