跳至正文
← 返回首页

2026年1月22日 · 演讲 · 54min

杨立昆:为什么人形机器人不知道如何变聪明

#世界模型#具身智能#JEPA#机器人技术#分层规划

当前的人工智能行业正在挖掘一条巨大的壕沟。每个人都在研究大型语言模型(LLM)。他们互相挖对方的工程师。而这一切都不会制造出一个能够收拾餐桌的机器人。

对话

在2026年达沃斯人工智能之家,杨立昆(Yann LeCun)与苏黎世联邦理工学院的马克·波雷菲斯(Marc Pollefeys)进行了一场关于具身人工智能的炉边谈话。这场对话与其说是一场礼貌的学术交流,不如说是一场有力的辩论,旨在说明为什么当前人工智能的整个发展轨迹,从大型语言模型到视觉语言模型(VLA),在物理智能方面从根本上是不够的。立昆已经离开了Meta,正在创办一家新公司,并将他的声誉押在一个非生成式范式上,他认为这将引发下一场人工智能革命。

波雷菲斯是一位计算机视觉领域的资深人士,他在几个方面提出了反驳,为当前方法的实际效用辩护。“现在工业界行得通的方法”和“智能实际需要什么”之间的张力贯穿了整个对话。

机器人学的一大秘密

立昆以一个挑衅性的问题开场:每一家制造人形机器人的公司,尽管它们展示了令人印象深刻的功夫和后空翻,但都有一个不可告人的秘密。

“There’s a lot of companies building humanoid robots and they do those kinds of impressive things. This is all precomputed. None of those companies, absolutely none of them, has any idea how to make those robots smart enough to be useful.” 有很多公司在制造人形机器人,它们能做出各种令人印象深刻的事情。但这些都是预先计算好的。这些公司中,绝对没有一家知道如何让这些机器人变得足够聪明,从而变得有用。

这些引人注目的演示都是预先通过手写的动力学模型进行运动规划的,并用一些强化学习进行微调。这些机器人可以执行精心设计的程序,但无法处理新的情况。它们缺乏像家猫一样的常识,更不用说人类了。

根本问题在于:适用于语言的方法不适用于高维、连续、嘈杂的数据。语言是“容易的”,因为token在语义层面运作。而物理世界从根本上是不同的。

为什么生成模型无法理解物理

这是核心的技术论点,立昆对此毫不含糊。

像素级预测的问题:如果你围绕房间旋转摄像头,并要求模型继续播放视频,它需要预测每个表面、每张脸、每个物体的纹理。这在信息上是不可能的。经过训练以预测像素的生成式架构要么产生可能的未来的模糊平均值,要么使用扩散模型产生视觉上吸引人但完全无法捕捉潜在动态的输出。

“I can take a video of this room, rotate the camera and stop here and then ask the system to continue the video. There’s no way in hell you can predict what all of you look like.” 我可以拍摄这个房间的视频,旋转摄像头并在这里停止,然后要求系统继续播放视频。你绝对不可能预测你们所有人看起来会是什么样子。

立昆将其建立在图像表征学习的经验证据之上。与学习抽象特征而不重建输入的联合嵌入架构(如DINO)相比,重建像素的掩码自编码器(MAE)产生的表征较差。他认为,这种模式不是一个小细节,它反映了一个基本原则。

波雷菲斯反驳说,对于具有已知起始位置的狭窄操作任务,像素级预测是可行的。立昆的回应很直率:“请原谅我的法语,但绝对不可能。” 他报告了15年来尝试使用生成方法进行视频理解的经历,但在自然视频上始终失败。

关键的洞察:智能需要忽略不相关细节的能力。根据定义,生成模型无法做到这一点,因为它们必须重建一切。

世界模型和JEPA架构

立昆的替代方案是JEPA:联合嵌入预测架构(Joint Embedding Predictive Architecture)。JEPA不是预测像素,而是学习抽象表征并在表征空间中进行预测。该系统学习哪些信息是可预测的,并丢弃其余的信息。

训练过程:拍摄一段视频,遮盖其中的一部分,将完整的视频通过一个编码器运行,并将损坏的视频通过另一个编码器运行,训练一个预测器来匹配这些表征。该系统学会关注现实的结构性、可预测的方面。

他们最新的模型V-JEPA 2是在100年的视频(大约是YouTube一天上传的视频量)上训练的。尽管这看起来很庞大,但它大约相当于10^15到10^16字节,比最大的LLM的文本训练数据多100倍。立昆认为,正是这种数据量的优势使得纯文本训练永远无法达到人类水平的智能。

常识测试:他们向模型展示了物理上不可能发生的事件的视频(一个球在半空中停止、改变形状、消失)。预测误差急剧上升。“这是我第一次看到任何类型的模型具有某种程度的常识。”

这与发展心理学家测试婴儿的方式相呼应:六个月大的婴儿不会注意到在半空中漂浮的物体,但十个月大的婴儿会惊讶地盯着看,因为他们的世界模型受到了侵犯。

纽约到巴黎的问题

立昆用一个生动的例子来解释分层规划,他称之为“人工智能中一个完全未解决的问题”。

规划从纽约大学到巴黎的旅行不能用毫秒级的肌肉控制来完成。相反,我们以递减的抽象程度进行规划:到达机场并赶上飞机;到达机场意味着下到街上并乘坐出租车;到达街道意味着走到电梯。在每个层面上,世界模型以不同的时间尺度和不同的细节程度运作。

这需要一个多层次的世界模型:低层次的模型以精细的细节预测短期(毫秒级的肌肉控制),高层次的模型以粗略的抽象预测长期(乘坐出租车去机场)。低层次的行动无法用语言描述。一些高层次的行动可以。

他将此比作物理学:原则上你可以使用量子场论来描述这个房间里发生的一切,但这需要测量一立方公里空间内的波函数。相反,我们使用正确的抽象层次:心理学和经济学,而不是粒子物理学。

蛋糕类比,再谈

立昆回顾了他十年前著名的蛋糕类比。智能的“蛋糕”有三层:

蛋糕本身(自监督学习):绝大部分的学习。观察世界,构建表征,学习世界模型。不需要专家,没有奖励。你的大部分参数,你的大部分知识。这也是与具体化无关的:你在拥有特定的身体之前就学会了世界是如何运作的。

一层薄薄的糖霜(监督/模仿学习):模仿专家的行为。贡献较小。立昆指出,大多数动物从未经历过这个阶段,因为它们从未见过它们的父母。章鱼在几个月内变得非常聪明,没有任何父母的指导。

樱桃(强化学习):轻微的微调。“非常低效”,以至于从头开始用强化学习训练一辆自动驾驶汽车,需要它先开下悬崖数千次才能学会不这样做。

从通用理解到特定具身

波雷菲斯提出的一个关键的实际问题:你如何将通用的世界理解转移到特定的机器人身体上?

立昆描述了V-JEPA 2的流程:首先在100年的自然视频上进行预训练,以学习通用的表征,然后通过添加动作条件预测(给定机器人状态+动作,预测下一个状态)进行微调。这个微调阶段需要的数据量出奇地少,这些数据可以来自模拟。关键是,这是动力学的模拟,而不是特定任务的模拟。

由此产生的模型是通用的:你可以用它来完成任何任务,从拿起一个玻璃杯到倒水。机器人可以零样本完成新的任务,因为它有一个世界模型,就像一个十岁的孩子第一次收拾餐桌一样。

“Ask a 10-year-old who’s never done it before to clear out the dinner table and fill up the dishwasher. A 10-year-old can do it the first time. Doesn’t need to be trained for it. Why? Because of a world model.” 让一个从未做过的10岁孩子收拾餐桌并装满洗碗机。一个10岁的孩子第一次就能做到。不需要为此进行训练。为什么?因为有一个世界模型。

硬件瓶颈

当波雷菲斯问到达到类似大脑的效率还缺少什么时,立昆的回答令人惊讶:不是算法,而是硬件。

人脑的运行频率约为10赫兹。视觉处理需要100毫秒,运动反应需要另外100毫秒。对视觉障碍物的制动反应需要300毫秒。猫的速度更快,因为它们的大脑更小。

根本问题在于:在生物大脑中,每个突触都有其自己的专用物理元件。在硅中,我们重复使用相同的硬件进行多次计算(硬件多路复用),这意味着不断地在存储器和计算之间洗牌数据。几乎所有的能量都用于数据移动,而不是计算。

解决方案将需要奇异的模拟技术:自旋电子学、碳纳米管、光学计算,或者一些尚不存在的东西。纳米级的非易失性模拟存储器,其中每个“权重”都有其自己的物理设备。

立昆补充了一个有趣的细节:在小尺度上,由于制造的可变性,每个设备都将具有独特的特性。系统必须进行环内训练,使每个芯片都是唯一的且不可复制的。“它是会死的,如果你愿意的话。就像人脑一样,你无法制作另一个副本。”

卷积神经网络与Transformer:一个实际的现实

一个值得注意的题外话:在学术论文中,视觉Transformer(ViT)占据主导地位。但是,部署在现实世界中的每一个实时视觉系统都使用卷积神经网络。每一个自动紧急制动系统,欧洲的每一个高速公路驾驶辅助系统都使用卷积神经网络,因为对于实时视频处理来说,Transformer的计算成本太高了。

立昆引用了他的前同事谢赛宁(ConvNeXt)的工作,表明通过同等的工程努力,卷积神经网络可以与Transformer的性能相匹配。架构不是魔法;训练方法才是。

立昆的下一个赌注

立昆最后透露,他正在创办一家雄心勃勃的新公司,该公司建立在JEPA范式之上。其论点是:从视频中训练世界模型,将其用于分层规划,并创建真正理解物理世界的人工智能系统。

“I’m seeing a future where this is going to be the next AI revolution. We’re going to have another AI revolution brought about by this.” 我看到了一个未来,这将是下一次人工智能革命。我们将迎来由它带来的另一次人工智能革命。

他认为时机已经成熟,因为结果已经验证了这种方法:V-JEPA展示了常识,动作条件模型实现了机器人规划,并且通往更强大系统的道路是清晰的。

结束语

这次对话明确了立昆多年来一直在磨练的立场,现在得到了具体结果和商业赌注的支持:

  • 最具挑衅性的主张也是最可测试的:目前没有一家人形机器人公司具有通往通用智能的可行途径。如果基于视觉语言模型的机器人(VLA)在未来两年内实现了有意义的泛化,那么这个预测将公开失败。

  • 100年的视频与10^14字节的文本的比较引人注目。如果智能需要扎根于物理现实,那么纯文本训练从根本上来说是数据匮乏的,无论你收集多少文本。

  • 立昆将当前的视觉语言模型(VLA)系统与1980年代的专家系统进行比较是尖锐的。专家系统失败不是因为它们毫无用处(它们并非如此),而是因为手工设计知识的成本无法扩展。他看到了相同的模式:视觉语言模型(VLA)适用于狭窄的脚本化任务,但不会泛化。

  • 硬件论点被低估了。如果达到类似大脑的效率的瓶颈是不存在的模拟存储技术,那么无论算法如何进步,以人类效率实现的具身人工智能可能还需要几十年。

  • 立昆离开Meta的原因是因为该公司变得“沉迷于大型语言模型(LLM)”这一事实表明了一种真正的知识信念。他不是在对冲风险;他全力投入到一种被行业大多数人忽略的范式中。

观看原视频 →