2026年1月28日 · 访谈 · 29min

Yann LeCun：LLM 革命已经结束，物理 AI 时代即将到来

#世界模型#开源人工智能#物理人工智能#通用人工智能时间线#人工智能治理

LLM 时代只是垫脚石，而非终点。下一场革命不会来自更大规模的语言模型，而是来自能够理解物理世界的机器。

访谈

在达沃斯举行的由 Imagination In Action 的 John Werner 主持的 AI 峰会上，Yann LeCun 对当前的人工智能范式提出了全面的批评，并阐述了他对未来发展的愿景。刚离开 Meta（在那里他领导了 12 年的人工智能研究）的 LeCun 依旧直言不讳：基于 LLM 构建的代理系统是“灾难的根源”，开放研究正被企业保密扼杀，而通往人类水平智能的道路需要根本性的架构转变。这并非告别巡演，而是他下一个篇章的宣言。

为什么 LLM 无法将我们带向真正的智能

LeCun 的核心论点是架构性的。LLM 预测序列中的下一个 token，但它们无法预测现实世界中行动的后果。如果没有这种能力，真正的规划是不可能的。

“How can a system possibly plan a sequence of actions if it can’t predict the consequences of its actions?” 如果一个系统无法预测其行动的后果，它怎么可能规划一系列行动？

他将此与人类的学习进行了鲜明对比：一个 17 岁的青少年可以在 10 小时的练习内学会开车。自动驾驶系统已经消耗了数百万小时的训练数据，但仍未达到 L5 级别。差距不在于规模，而在于错误的架构。

LeCun 强调，现实世界与语言世界有着根本的不同。感官数据是高维、连续且嘈杂的。对文本效果极佳的生成式架构根本无法转移。这与直觉相反，因为人类将语言视为智能的顶峰，但 LeCun 坚持认为预测下一个词“并没有那么复杂”。真正的挑战是模拟物理现实。

他还反驳了“AGI”这个术语本身。不是因为他怀疑机器会超越人类智能，而是因为人类智能并非通用的。将人类水平的人工智能称为“通用人工智能”是一种用词不当。

AMI 和 JEPA 架构

LeCun 的新公司 Advanced Machine Intelligence（发音为“ami”，在法语中意为“朋友”）是他曾在 Meta 的 FAIR 实验室推动的研究项目的外部延续。他深情地描述了那里的工作文化：他是“无人之经理”，人们自愿加入该项目，自下而上而非自上而下。“研究就应该这样进行。”

技术蓝图以 JEPA（Joint Embedding Predictive Architecture，联合嵌入预测架构）为中心，这是一种非生成方法，在表征空间而不是像素空间中进行预测。关键的洞察力在于：系统不是试图生成视频的精确未来帧（这对于现实世界的复杂性来说是棘手的），而是学习抽象表征，以捕捉本质的动态。

他们已经有了可用的原型。完全通过自监督方式在未标记视频上训练的系统可以：

理解和表征视频内容
预测视频中缺失的部分
检测物理上不可能发生的事件（球在半空中停止或消失会触发高预测误差）

其雄心远不止于视频理解。LeCun 希望将 JEPA 推广到任何模态和任何传感器数据，从而实现复杂系统的“现象学模型”：工业过程、化工厂、涡轮发动机，甚至活细胞。

数字孪生问题

LeCun 对数字孪生概念提出了微妙的批评。高保真模拟的问题在于，如果你过于精确地模拟一个系统，你就无法预测任何有用的东西。他用一个思想实验来说明了这一点：理论上，你可以使用量子场论来解释房间里发生的一切，包括每个人的思维过程。但这种程度的细节是完全不切实际的。

“The way we can understand what’s taking place right now in this room is through psychology, maybe a little bit of science… not at the level of quantum field theory.” 我们理解现在这个房间里发生的事情的方式是通过心理学，也许还有一点科学……而不是在量子场论的层面上。

这就是为什么抽象表征很重要。智能需要适当的抽象层次来进行有用的预测，而试图重建原始数据的生成模型从根本上错过了这一点。

开放 AI 作为基础设施，而非慈善

LeCun 将 AI 开放性视为历史的必然，而非理想主义。他的类比是：在 20 世纪 90 年代，互联网基础设施依赖于 Sun Microsystems 和 HP 的专有服务器，这些服务器运行着专有操作系统。所有这些都被“彻底抹去”了。现在，整个互联网都运行在 Linux 上，具有从底层协议到 Web 应用程序的开源堆栈。

“If it’s not open source, it will just not be adopted.” 如果它不是开源的，它就不会被采用。

但他的论点比市场动态更深入。在不久的将来，每个人的“整个数字饮食都将由 AI 系统来调节”，将这种权力集中在美国西海岸或中国的少数公司手中，对民主、文化多样性和语言多样性来说将是灾难性的。开源 AI 至关重要，原因与新闻多样性至关重要相同。

他提出了一个全球联盟，不同地区为训练共享的开源模型做出贡献，从而创建“所有人文知识的存储库”。对于既不是美国也不是中国的国家来说，这一点尤其紧迫，因为它们需要访问多语言和文化本地数据，而任何一家私营公司都无法提供这些数据。

关于当前状态：他在 Meta 的前同事正在开发 Llama 的后续产品，但它是否会保持开放“尚不完全清楚”。与此同时，现在最好的开源模型来自中国。LeCun 称西方实验室中封闭研究的趋势对进步来说是“灾难性的”。

真正的风险：集中，而非灭绝

当被问及 AI 风险时，LeCun 以“原谅我的法语”驳斥了生存场景，称其为“胡说八道”。真正的危险是权力的集中，特别是少数公司可能控制调节所有人类信息的 AI 系统。

关于经济取代，他引用了经济学家 Philippe Aghion（诺贝尔奖获得者）和 Erik Brynjolfsson（斯坦福大学）的观点，他们预测 AI 将使生产力每年提高约 6%。这很重要，但并非灾难性的。大规模失业不太可能发生，因为限制因素是人们学习使用新技术的速度，这是一种“内置的监管机制”。

关于对齐，LeCun 认为当应用于 LLM 时，整个框架是错误的。你永远无法保证 LLM 的行为，因为它的训练数据仅涵盖了可能提示的一小部分。但这是架构的问题，而不是智能本身的问题。他提出的“目标驱动型 AI”系统将被赋予特定目标，并受到在推理时强制执行的护栏的约束，这是一种根本不同且更可控的方法。

学习量子力学，而不是移动应用程序编程

LeCun 给学生的建议一如既往地与众不同：如果你在移动应用程序编程课程和量子力学课程之间进行选择，即使你是一名计算机科学家，也要选择量子力学。

他的理由是：技术发展如此之快，以至于今天的学生不可避免地会改变职业。持久的是基础知识，是具有长期保质期的数学和概念工具。他指出，机器学习的底层数学很大程度上来自统计物理学，这就是为什么现在有这么多物理学家在 AI 领域工作。没有人可以提前预测到这种联系。

2035 年的展望

LeCun 将人类水平的 AI 放在 10 年的时间范围内，但坚决拒绝了更乐观的同事提出的“明年”时间表。进步将通过多项概念性突破来实现，这些突破将发表在“晦涩的研究论文中，在五年后有人证明它们有多强大之前，没有人会关注它们”。这正是深度学习、transformer 和 LLM 各自展开的方式。

他对 2035 年的愿景：AI 助手嵌入在智能眼镜或其他可穿戴设备中，不断增强人类智能并帮助我们做出更合理的决策。人类与超智能系统之间的关系将类似于领导者与其员工之间的关系。

“Politicians certainly are surrounded by staff of people who are smarter than them, right? Certainly true for professors too, actually.” 政客们肯定被比他们更聪明的员工包围着，对吧？实际上，教授们也肯定是这样。

LeCun 总结说，增加地球上智能总量的目的是“内在的善”。

一些观察

一次在 30 分钟内涵盖了大量内容的对话，演讲者兼具深厚的技术权威和做出大胆、具体声明的意愿，这实属罕见。

JEPA 与生成式架构的区别是 LeCun 世界观的技术核心。如果他是对的，即抽象表征（而不是像素级生成）是世界模型的关键，那么当前的生成式 AI 繁荣是建立在错误的基础上的。
他将 AI 平台与 Linux 进行类比在历史上是恰当的，但并不完整。Linux 获胜是因为它是免费的并且足够好。开源 AI 不仅需要可用，还需要与前沿的封闭模型竞争，当训练成本高达数十亿美元时，这是一个更高的门槛。
Aghion 和 Brynjolfsson 的“每年 6% 的生产力”框架是在一个被乌托邦或世界末日极端情况主导的辩论中一个有用的锚点。它表明了以采用的速度而不是以能力的速度进行转型。
LeCun 离开 Meta 并创立 AMI 本身就是一个数据点。AI 历史上最有资历的研究人员之一正在将他的下一个篇章押注在大多数行业没有追求的范式上。这是否具有远见卓识或与众不同将是未来十年要解决的关键问题。

观看原视频 →