跳至正文
← 返回首页

2026年1月23日 · 播客 · 34min

哈萨比斯:距离实现通用人工智能仅一两项突破

#通用人工智能 (AGI) 定义#持续学习#世界模型#谷歌#人工智能泡沫#个人AI助理

Demis Hassabis 并不认为我们已经飞速超越了 AGI(通用人工智能)。他认为我们还需要一到两次真正的突破才能达到那个目标。而且,他对这些突破的具体内容有着令人惊讶的明确清单。

对话内容

这是一期 Big Technology Podcast 节目,在达沃斯录制,Alex Kantrowitz 与 Google DeepMind 的 CEO 进行了长达 34 分钟的广泛对话。这次对话的有趣之处在于 Hassabis 对 AI 进展步入正轨的信心,与他坚持认为当前范式确实不完整的观点之间的张力。他既是对 AI 变革潜力最为乐观的人,也是对我们尚未实现的目标最为严谨的人之一。

AGI 缺失的部分

Hassabis 直言不讳地指出了当前系统的不足之处。他明确指出了三个具体的差距:

持续学习。 今天的模型拥有采访者所说的“金鱼记忆”:它们可以搜索互联网,对搜索到的内容进行推理,但是一旦你关闭会话,所有这些都不会改变模型。Hassabis 认为这是最根本的局限。

“Learning is synonymous with intelligence and always has been.” 学习与智能是同义的,一直都是如此。

当他说 AGI 中的“通用”时,他指的是通用的学习,即跨任何领域获取新知识并保留它的能力。

DeepMind 已经在狭窄的领域做到了这一点。Alpha Zero 从零开始学习;AlphaGo Zero 则建立在现有知识之上。悬而未决的问题是,这些技术是否可以扩展到混乱、开放式的现实世界。Hassabis 正在努力将持续学习与大型基础模型相结合。谷歌最近发布了“个人智能”功能,作为“最初的尝试”,但他承认真正的目标,即让模型本身根据互动随时间变化,“尚未被攻克”。

世界模型。 这就是 Nano Banana 的回答有意义的地方。当被问及哪个当前系统最接近 AGI 时,Hassabis 令人惊讶地提到了谷歌的图像生成器,然后转向了真正的重点:像 VO 这样的视频生成模型是原始的世界模型。一个可以生成 10-20 秒逼真物理场景的模型,已经隐式地学习了一些关于液体如何流动、物体如何相互作用、因果关系如何运作的知识。

为什么这对 AGI 如此重要?因为世界模型可以实现长期规划。人类可以规划数年(花四年时间获得学位,以便在十年后找到更好的工作)。当前的 AI 系统只能在一个时间尺度上进行规划。世界模型将允许机器人想象从当前情况出发的许多轨迹,并最终允许 AI 助手在现实世界中进行有意义的规划。

更好的记忆和推理。 不仅仅是更长的上下文窗口,而是更高效的上下文窗口。“不要存储所有东西,只存储重要的东西。大脑就是这样做的。”

关于仅仅通过扩展规模是否能解决这些问题,Hassabis 倾向于需要真正的新创新:“如果你非要我选边站,我会站在后者阵营。”但他明确表示,无论如何,大型基础模型将是最终 AGI 系统的关键组成部分。在他看来,唯一的争论是它们是唯一的组成部分还是一个组成部分。他不同意 Yann LeCun 的观点,即 LLM(大型语言模型)已经走到了尽头。

AGI 的真正含义

Hassabis 强烈反对 Sam Altman 的说法,即“AGI 的定义不明确”,我们应该一致认为我们在通往超级智能的道路上已经“飞速超越”了它。

“I’m sure he does wish that, but it’s absolutely not. I don’t think AGI should be sort of turned into a marketing term or for commercial gain.” 我确信他的确希望如此,但绝对不是。我不认为 AGI 应该被变成一种营销术语或用于商业利益。

他的定义是精确且要求严格的:一个可以展现人类所有认知能力的系统。不仅仅是解决一个数学猜想,而是提出一个突破性的猜想。不仅仅是解决一个物理问题,而是发明一种新的物理理论,就像爱因斯坦发明广义相对论一样。不仅仅是创作对现有艺术的模仿,而是成为毕加索或莫扎特,发明一种全新的流派。

“Today’s systems in my opinion are nowhere near that. Doesn’t matter how many Erdos problems you solve.” 在我看来,今天的系统远未达到这个水平。解决多少个 Erdos 问题都无关紧要。

他将此扩展到身体智能:精英体育、身体控制、机器人技术。一个 AGI 系统需要所有这些能力。他的时间表:5 到 10 年。

关于超级智能,他划了一条明确的界限。个体人类可以提出新的理论。这不是超人的能力。超级智能意味着真正超越人类能力的事情,比如以 14 维的方式思考,或者将气象卫星直接插入大脑。

谷歌的 AI 眼镜赌注

Hassabis 透露,他个人正在研究智能眼镜,他认为这是谷歌最令人兴奋的项目之一。理由是:

纪录片《思考游戏》展示了 DeepMind 的员工举起手机向 AI 询问现实世界。这行得通,但外形不合适。烹饪、城市导航、帮助视障人士,这些都需要免提互动。

谷歌眼镜之前失败的原因有两个:硬件太笨重(现在“或多或少已经解决”),而且没有杀手级应用。Hassabis 认为杀手级应用是一个通用的数字助手,而 Gemini 3 “可能足够强大,可以使之成为现实”。

与 Warby Parker、Gentle Monster 和三星的合作已经到位。原型已经存在。Hassabis 说“你应该会在夏天左右开始看到它”。

Gemini 中的广告:一个信任问题

关于 Gemini 是否会包含广告的问题,Hassabis 直截了当地说:“我们目前没有计划。”

但他的理由比答案更有趣。他将其定义为一个信任问题。如果一个助手应该代表你工作,以你的最佳利益为出发点,那么广告就会产生固有的冲突。他指出了竞争对手声称 AGI 即将到来,同时又在构建支持广告的聊天机器人的讽刺之处:

“Why would you bother with ads then? So that is I think a reasonable question to ask.” 那你为什么要费心做广告呢?所以我认为这是一个合理的问题。

他承认谷歌正在集思广益地寻找替代的收入模式,特别是针对眼镜和设备,但表示尚未达成任何明确的结论。

竞争和 Vibe Coding 浪潮

关于 Anthropic 和 Claude Code,Hassabis 表现得很友善:“向 Anthropic 致敬。他们构建了一个非常好的模型。”他将其定位为一种专注的权衡:Anthropic 专注于编码和语言模型,而 DeepMind 构建图像模型、多模态模型、世界模型。“他们只做编码和语言模型,而且他们在这方面非常、非常出色。”

他个人对 vibe coding 充满热情,曾在圣诞节期间使用 Gemini 3 来制作游戏原型。他认为这将为以前需要编程团队的设计师、创意人员和艺术家打开生产力的大门。

谷歌自己的 IDE,Anti-Gravity,“实际上无法满足”它所看到的“所有需求”。

AI 泡沫:并非二元对立

Hassabis 对泡沫问题给出了最细致的回答:“它不是二元对立的。AI 行业的某些部分可能[存在泡沫],而其他部分,仍有待观察。”

泡沫:对没有产品或研究, “只是有些人聚在一起”的公司进行数百亿美元的种子轮融资。非泡沫:拥有庞大现有业务的成熟公司,AI 显然可以提高生产力。不确定:AI 原生产品(如聊天机器人和眼镜)的货币化。

他还提到了一个巨大的“能力过剩”:即使是构建者也不完全了解当前模型能做什么。产品机会远未耗尽。AI 收件箱、浏览器中的代理、AI 驱动的搜索,这些仅仅是开始。

他的战略框架是:“我的工作是确保无论 AI 泡沫发生什么,如果它破裂或者没有泡沫,我们都能获胜。”

知识工作的象棋类比

关于 AI 是否会像让围棋和象棋棋手士气低落那样让知识工作者士气低落,Hassabis 认为历史表明并非如此:

自 20 世纪 90 年代以来,象棋计算机一直具有超人的能力。象棋比以往任何时候都更受欢迎。没有人观看计算机与计算机对弈;他们观看 Magnus Carlsen。

最引人注目的例子来自围棋。当今在世的最优秀的围棋棋手,一位 20 多岁的韩国人,在 AlphaGo 比赛发生时大约 15 岁。他在知识库中通过 AlphaGo 的知识进行原生学习,并且按 ELO 评分来看,他是迄今为止最强大的人类棋手。他“实际上可能比当时的 AlphaGo 更强大”。

即使车辆快得多,我们仍然会在奥运会上观看 100 米比赛。“我们有无限的适应能力。”

但他承认一个更深层次的挑战:目的和意义。“我们都从我们所做的工作中获得了很多目的和意义。”当这些被自动化时,我们将需要“新的伟大哲学家”来帮助我们应对他所说的“人类状况的改变”。他将其比作工业革命,“可能是它的 10 倍”。

信息作为基本单位

在一个压缩的两分钟片段中,Hassabis 分享了他的理论,即信息,而不是能量或物质,是宇宙最基本的单位。

生物系统是抵抗熵的信息系统,在随机性中保持结构。这不仅限于生物学:山脉、行星、小行星都受到了选择压力的影响(不是达尔文式的,而是外部的),它们的长期稳定性意味着它们的信息是“相当稳定和有意义的”。

他将此与 AlphaFold 联系起来:在几乎无限可能的蛋白质结构中,只有某些结构是稳定的。理解这种“信息拓扑”就是如何在干草堆中找到针。他认为这就是 AI 最终将如何帮助发现新药、材料和室温超导体。

Alpha Zero 时刻

采访以最具挑衅性的问题结束:当 LLM 达到对人类知识的掌握,就像 AlphaGo 掌握了人类围棋知识一样,然后你像 Alpha Zero 那样“放开它”会发生什么?

Hassabis:“对我来说,那就是 AGI 时刻。”该系统将发现物理定律允许但我们尚未发现的室温超导体、新能源、最佳电池。首先,它达到人类水平的知识,然后技术(“也许它将不得不帮助发明”)允许它探索未知的领域,就像 Alpha Zero 对围棋所做的那样。

AlphaFold 是概念验证:被视为“根节点问题”,现在已被全球 300 万研究人员使用。Hassabis 预测“从现在开始发现的几乎每一种药物都可能在某个时候使用过 AlphaFold”。

一些想法

  • Hassabis 对 AGI 的定义是业内要求最高的。通过要求所有人类认知能力,包括创造力和身体智能,他设定的标准使得 5-10 年的时间表感觉雄心勃勃,而不是保守。
  • 持续学习的差距被低估了。其他所有 AI 领导者都在谈论扩展规模和推理。Hassabis 是指出在会话之间忘记一切的系统从根本上来说是不智能的,无论它推理得多么好的人。
  • 广告的回答揭示了谷歌的战略紧张关系。该公司的核心业务是广告,但其最重要的 AI 部门的 CEO 实际上是在争辩说,广告与个人 AI 助手所需的信任是不相容的。
  • 围棋类比比乍看起来更有希望。如果最优秀的人类围棋棋手因为 AlphaGo 而出现,那么这就是一个真正的论点,即 AI 可以让人类变得更好,而不是过时。
  • 他关于信息作为基本单位的理论将他的科学世界观直接与 DeepMind 的研究策略联系起来:找到信息拓扑,棘手的问题就会变得容易解决。AlphaFold 是概念验证;其他一切都随之而来。
观看原视频 →