2026年1月25日 · 播客 · 47min

智能即乐高：为何真正的人工智能需要模块化、可组合的构建基块

#通用人工智能定义#基于能量的模型#持续学习#科学人工智能#人工智能安全

智能并非一种二元属性，也不是一个需要跨越的门槛。正如计算神经科学家杰夫·贝克所说，它更像是乐高积木：以特定方式连接的模块化组件，能够创造出前所未有的结构。在 Machine Learning Street Talk 的一次广泛对话接近尾声时，他随意提出的这个框架，悄然重新定义了我们应该如何思考构建和评估 AI 系统。

对话内容

杰夫·贝克是一位从事计算神经科学和机器学习交叉领域研究的研究员，他与蒂姆·斯卡夫坐下来讨论了能动性、智能、基于能量的模型以及人工智能的未来。这次对话技术性很强，但又富含哲学意味，在数学形式和关于智能本质的宏大问题之间流畅切换。贝克带来了基于自由能原理的贝叶斯视角，并且令人耳目一新地愿意说“我不知道”，同时仍然提供精确且发人深省的框架。

智能体和石头之间没有结构性差异

贝克以一个基于自由能原理的观点开场：从纯粹的数学角度来看，我们对智能体和对物体的建模方式没有结构上的区别。两者都执行将输入映射到输出的策略。石头有策略，人类也有。

区别在于复杂程度，而不是本质。智能体具有代表长期事物的内部状态，参与计划和反事实推理，并维持复杂的内部计算。石头则没有。但描述两者的数学框架是相同的。

这导致了贝克所说的“能动性的黑盒问题”：从外部来看，你无法明确判断一个系统是真的在计划，还是仅仅在执行一个恰好能给出正确答案的预先计算好的查找表。我们能做的最好的事情是询问哪个模型能对观察到的行为提供最简单的解释，本质上是将奥卡姆剃刀原理应用于智能归因。

“There’s no difference between an agent and an object in a very real way, or at least there’s nothing structurally distinct between how we model an agent and how we model an object. It’s really just a question of degrees.” 在某种非常真实的意义上，智能体和物体之间没有区别，或者至少我们对智能体和对物体的建模方式在结构上没有区别。这实际上只是一个程度问题。

基于能量的模型：优化状态，而不仅仅是权重

贝克讲解了基于能量的模型 (EBM) 以及它们为何重要，这简直就是一堂大师课。关键的洞察力非常简单：传统的神经网络在训练期间只优化权重，而基于能量的模型则同时优化权重和内部状态。

在标准的神经网络中，你固定输入并调整权重以最小化损失函数。在 EBM 中，你还优化内部激活本身，将其视为自由变量。这种双重优化直接与贝叶斯推断相关：内部状态成为后验估计，优化过程等同于计算对世界的信念。

这种区别对于表征学习至关重要。贝克解释了自监督学习中的“运动崩溃”问题：如果没有仔细的正则化，模型会崩溃到平凡的解决方案，其中每个输入都映射到相同的表征。不同的方法（对比学习、JEPA、VICReg）都以不同的方式解决了这个问题，但贝克认为，基于能量的公式提供了一个更清晰的理论框架，可以理解为什么会发生崩溃以及如何防止它。

实际意义是：如果你想要 AI 系统维护丰富、可重用的表征，而不是特定于任务的捷径，那么基于能量的视角建议将内部状态与权重联合优化，而不是通过固定的管道预处理数据。

你的大脑可能从你的鼻子进化而来

对话中最令人惊讶的时刻之一：贝克提出，嗅觉空间复杂且非平滑的性质可能推动了我们联想皮层和计划能力的进化。

视觉空间具有良好的属性：平移对称性、平滑性、空间连续性。嗅觉空间则不具备这些。它是深度组合且复杂的，没有明显的几何结构。贝克认为，大脑中进化出来解决嗅觉问题的部分，最终变成了我们的额叶皮层。

他对此进行了限定（“别引用我的话。这里有很多分歧。”），但其逻辑引人入胜：我们的祖先面临的最困难的感官问题可能是产生通用联想推理的进化压力。必须处理化学组合和含义之间任意、非平滑映射的大脑区域，已经预先适应了我们现在称之为智能的那种灵活的组合思维。

JEPA 和潜在空间中的学习

贝克深入探讨了 Yann LeCun 的联合嵌入预测架构 (JEPA)，以及在潜在空间而不是像素空间中进行预测为何可能是实现稳健 AI 表征的关键。

预测原始观察结果（每个像素、每个 token）的生成模型的核心问题在于，它们浪费了大量容量来建模不相关的变化。JEPA 通过学习在压缩的潜在空间中进行预测来规避这个问题，专注于世界的抽象结构，而不是其表面外观。

贝克将此与关于预处理的更深层次的观点联系起来：在分析之前通过 VAE 或 PCA 运行数据的标准做法在实践中很有用，但在理论上令人不满意。他承认他将 PCA 作为第一步运行在每个新的神经数据集上，但理想的情况是联合学习表征和下游模型。JEPA 正朝着这个方向发展。

关于 PCA 的一个警告：在神经数据中，变异性最小的维度通常是最重要的。PCA 按照设计会丢弃低方差维度，可能会丢弃最有价值的信号。这是一个具体的例子，说明了表征和推理的联合优化为何重要。

智能是乐高积木

贝克的中心隐喻在接近尾声时变得清晰：智能就像乐高积木。单个积木以特定方式连接，但组合的可能性是巨大的。真正的智能不是拥有一个无所不能的整体系统；而是拥有可以以新颖的方式组合以处理以前从未遇到过的情况的模块化组件。

这与他对大脑进化的看法相关：简单的专业化模块学会了相互通信，并通过这种通信获得了涌现的能力。嗅觉皮层与视觉皮层对话，视觉皮层与运动皮层对话，结果是它们都无法单独完成的事情。

贝克明确拒绝了 AGI 的概念，认为这是一个用词不当：

“I don’t believe in AGI. AGI seems like a bit of a misnomer to me. What we really want is not artificial general intelligence. We want collective specialized intelligences.” 我不相信 AGI。AGI 对我来说似乎有点用词不当。我们真正想要的不是通用人工智能。我们想要的是集体专业化智能。

对 AI 开发的实际意义是：与其追求单一的通用模型，不如采用可以动态组合的专业化模块系统。Yoshua Bengio 团队的 GFlowNets 是贝克引用的一个例子：生成模型的生成模型，能够在现有潜在变量无法解释新观察结果时实例化新的潜在变量。

持续学习是缺失的一环

贝克认为，持续学习是当前 AI 中最关键的缺失要素。遇到意想不到的事情，将其识别为新事物，开启学习以弄清楚它，并将该知识整合到现有模型中，所有这些都不会发生灾难性遗忘，这正是当前系统与接近真正智能的系统之间的区别。

他用一个生动的例子来说明这一点：一个机器人第一次遇到一个沙滩球。你不想让它停下来等待指示。你希望它像孩子一样：戳它，观察会发生什么，更新它的模型。这是最基本的实证探究，它既需要识别新事物的能力，也需要即时设计实验的能力。

贝克从事的以对象为中心的物理发现框架对此有一个自然的机制：因为它根据离散对象对世界进行建模，所以它可以实例化全新的对象来解释新的情况，而不会破坏其对先前已知对象的理解。

更安全的 AI 对齐路径

贝克对 AI 安全采取了务实的立场。他不太担心流氓超级智能，而更担心恶意的人类行为者使用 AI 工具。他的理由是：所有当前的 AI 系统都只是按照指示行事。只要人类指定目标函数并理解它，这项技术本身就是可管理的。

但他更进一步，提出了一个基于最大熵逆强化学习（他指出这与主动推理密切相关）的更安全的 AI 对齐的具体机制。想法是：

观察当前人类行为和结果的分布（有多少人挨饿，资源分配在哪里等等）
使用逆强化学习来估计产生这种分布的隐含奖励函数
不要从头开始指定一个新目标（“结束世界饥饿”），而是对经验估计的奖励函数进行小的扰动
在扩大规模之前评估每个扰动的后果

关键的洞察力在于，手动指定奖励函数是危险的部分。“天网通过杀死所有人类来结束世界饥饿”的情景不是 AI 的失败；而是天真目标规范的失败。通过从经验估计的奖励函数开始并进行增量调整，你可以保持与现实的联系，并可以在危险的后果加剧之前抓住它们。

“You don’t say end world hunger. You perturb that distribution over outcomes a little bit, and then you evaluate the consequences.” 你不要说结束世界饥饿。你稍微扰动一下结果的分布，然后评估后果。

一些想法

这次对话技术性很强，但值得仔细关注。贝克设法将深刻的数学形式与关于智能本质的直观的、几乎是哲学性的见解联系起来。

“智能是乐高积木”的隐喻不仅仅是一个隐喻。它是一个研究计划：构建模块化、可组合的系统，而不是整体的系统，让智能从组合中涌现，而不是从规模中涌现。
嗅觉皮层假说，即使是推测性的，也将智能的进化重新定义为由最困难的感官问题驱动，而不是由最明显的问题驱动。对 AI 的启示：最重要的能力可能从看似边缘的领域中涌现。
贝克通过增量奖励函数扰动提出的 AI 安全建议是近期讨论中更务实的对齐想法之一。它不需要解决关于人类价值的哲学问题；它只需要仔细的实证估计和小步骤。
拒绝 AGI 而支持“集体专业化智能”与生物智能的实际运作方式相一致，并且可能比当前朝着单一通用模型发展的竞赛更有成效。

观看原视频 →