2026年1月22日 · 演讲 · 25min

弥合智能差距：Transformer 架构并非关键，工程才是制胜之道

#Transformer 架构#广泛泛化#人工智能研究文化#认知科学#Sakana AI

Transformer 的共同发明者认为，它实际上并非架构上的突破，而是一项工程上的突破。而真正的突破，那些能够弥合 AI 和人类智能之间差距的突破，将需要一些行业目前所排斥的东西：没有计划的研究。

小组讨论

在 2026 年慕尼黑 DLD 大会上，Llion Jones（《Attention is All You Need》的合著者，Sakana AI 的创始人）和 Raphaël Millière（牛津大学认知科学和哲学教授，即将出版一本关于生成式 AI 的免费教科书）与主持人 Ulrike Hoffmann-Burchardi（瑞银全球财富管理）一起，剖析了 AI 实际所处的位置与人类智能的差距，以及弥合这一差距需要什么。

这场对话紧凑（25 分钟），但内容丰富，充满了来自一位知情人士的反主流观点：他帮助构建了启动当前 AI 时代的架构，现在却认为它并非人们所认为的突破。

Transformer：千倍加速的技巧

Jones 最具挑衅性的观点是：Transformer 并非架构创新，而是一项工程优化。

“I no longer think that the Transformer was actually an architectural breakthrough. It was actually an engineering breakthrough.” 我不再认为 Transformer 实际上是一项架构上的突破。它实际上是一项工程上的突破。

他的论点很精确。Transformer 由与其前身（循环神经网络）完全相同的组件构建：深度多层感知器、残差连接，甚至注意力机制。所有这些都已存在。Transformer 只是重新排列了它们，以便同时处理所有单词，而不是按顺序处理。

“The main difference between an RNN and a transformer is the fact that you can process all of the words at the same time. And if you’re training on batches of say a thousand words, that represents a thousandfold increase in processing speed.” RNN 和 Transformer 之间的主要区别在于，你可以同时处理所有单词。如果你在训练时使用例如一千个单词的批次，那么这意味着处理速度提高了千倍。

该团队实际上研究了 TPU 硬件，并问：我们如何尽可能快地将数据推送到其中？我们如何使矩阵乘法尽可能大？这是一种硬件感知设计，而不是概念上的飞跃。

Jones 进一步表示：大多数研究人员会同意，如果 RNN 能够像 Transformer 一样有效地扩展，它们也能很好地工作。Transformer 的真正贡献在于解锁了扩展深度学习的能力，而不是发明了一种新的智能形式。

鹈鹕问题：AI 仍然失败的地方

Millière 举了一个生动的例子来说明 AI 无法做到的事情。要求图像模型生成“一只骑自行车的鹈鹕”，它会成功，因为代理骑乘车辆的模式在训练数据中很常见。要求它生成“一辆骑着鹈鹕的自行车”，这是一个简单的概念反转，它会完全失败，产生相同的鹈鹕骑自行车图像。

一个年幼的孩子可以毫不费力地做到这种反转。孩子的画作缺乏 AI 的视觉细节，但在概念上是正确的，这才是真正重要的部分。

这种失败有一个名称：广泛泛化，即处理熟悉概念的全新组合的能力。当前的 AI 泛化范围狭窄（重新组合已知的模式），但在真正新颖的组合中会崩溃。

同样的问题出现在各个领域：

时钟指针：图像模型已经看过数百万张时钟图像，但大多数是广告，其中指针出于美观原因定位在 10:10。这些模型无法将这种统计模式与描绘特定时间的实际任务分开。一个见过的时钟少得多的孩子可以立即做到这一点。

变体数独：Jones 的团队创建了一个名为 Sudoku Bench 的基准，使用由专家设置者手工制作的具有新颖规则组合的谜题。这些需要理解新规则如何相互作用的“顿悟时刻”。即使标准数独在他们的能力范围内，最先进的 LLM 仍然在这个基准上表现不佳。

更深层次的差距：持续学习和倒置发展

Millière 确定了认知科学突出的两个结构性问题：

没有持续学习。 当前的模型经过一次训练后就会被冻结。当你与 ChatGPT 交谈时，它不会从根本上从互动中学习。包括人类在内的动物会不断地从与世界的每一次互动中学习。这仍然是 AI 中一个尚未解决的问题。

“One of the tough nuts to crack in AI is called continual learning. That’s what we do, what animals do. And the open secret is that we don’t fully know how to do this well currently.” AI 中最难解决的问题之一被称为持续学习。这就是我们所做的，动物所做的。而公开的秘密是，我们目前还不太清楚如何做好这一点。

倒置的发展轨迹。 人类婴儿首先通过感官输入体验世界。他们抓住自己的脚，弄清楚什么是他们的身体，什么是外部世界。语言在几年后才出现，并映射到丰富的感觉运动理解基础上。AI 的发展恰恰相反：首先在数百万个网页的文本上进行训练，然后附加视觉和交互功能。与生物代理相比，这种轨迹是“完全不平衡的”。

没有课程。 也许最令人惊讶的是，AI 训练没有课程的概念。你可能会期望模型首先学习简单的算术，然后是代数，然后是微积分。相反，一切都混合在一个堆中：“预测所有这些的下一个单词。” 这在规模上效果很好，但这是另一个表明某些根本性问题缺失的信号。

AI 推理是外部化的独白

Jones 和 Millière 对当前 AI 如何“推理”得出了一个惊人的观察结果。当 GPT-5.2 显示“思考”阶段时，它正在生成 token，以与生成响应相同的方式生成单词，只是在回答之前这样做 10 分钟。

Jones 提出了一个生动的类比：想象一下，如果每次有人问你一个问题，你都无法在脑海中思考。你必须拿出一张纸和笔，用英语写下每一个想法，在回答之前写出一本书的文字。这将是一种非常奇怪且效率低下的思考方式。

“Almost certainly everyone here can feel that there’s a way that we reason non-linguistically, conceptually, visually. But right now, state-of-the-art AI is forced to reason entirely in language.” 几乎可以肯定的是，这里的每个人都能感觉到我们有一种非语言、概念化、视觉化的推理方式。但目前，最先进的 AI 被迫完全用语言进行推理。

瓶颈在于单个单词的层面。该模型通过输出一个单词进行推理，而它得到的所有信息都是它刚刚产生的单词。Jones 认为，真正的 AI 会在自己的“头脑”中，在连续的潜在空间中而不是在标记化的语言中进行内部推理。

这与 Sakana AI 在他们所谓的连续思维机器上的工作有关，该机器的灵感来自生物大脑表现出标准神经网络中不存在的同步模式的观察。Jones 将其描述为本身不具有生物学上的合理性，但受到神经同步的启发，并产生了“非常有趣的例子”。

自由问题

对话转向了研究文化。Jones 强调了一个他表示每次公开演讲都会传达的信息：目前没有足够的研究自由，大量的投资和压力使情况变得更糟。

“It’s sort of odd to me that there’s so much excitement in AI and we’re not putting anything on the long bets.” 让我感到奇怪的是，AI 领域有如此多的兴奋，而我们却没有在长期投资上下注。

他借鉴了“为什么伟大无法计划”（Kenneth Stanley 和 Joel Lehman 的一本书）的哲学：要找到真正有趣的东西，你必须没有目标。你必须探索和玩耍。

在 Sakana AI，大部分资源用于利用当前的技术，但公司中有一个专门的部分在没有计划的情况下运作：聪明的人在一个房间里研究他们认为有趣和重要的事情。“有趣的东西真的发生在那里。”

压力存在于工业界和学术界，只是货币不同：工业界是投资者/股东价值，学术界是引用和出版物。两者都激励在已经有效的基础上进行增量工作，因为这可以快速交付和轻松发布。两者都不激励产生突破的根本性探索性研究。

DeepSeek：工程，而非突破

当被问及地缘政治维度以及 DeepSeek V4 是否可能带来下一个突破时，Jones 的回答一如既往地直率：

“I have to be controversial again and say that’s engineering, not a breakthrough, because that is exploiting the current state-of-the-art.” 我不得不再次提出争议，说那是工程，而不是突破，因为那是利用了当前最先进的技术。

Millière 对此表示赞同，他指出 DeepSeek 团队擅长优化现有的 Transformer 架构，尤其是在进口禁令带来的计算约束下。但他们没有余力投资于根本性的探索性研究，因为实现最先进性能的压力太大了。

他对面临类似竞争问题的欧洲的建议是：“不要试图赶上超大规模企业。尝试做一些不同的事情。这是一个更长期的赌注，但如果成功了，你就赢了。”

一些想法

一个 25 分钟的小组讨论，其影响力远超其时长，这主要是因为 Jones 愿意削弱他自己贡献的神话色彩。

将 Transformer 视为工程技巧的框架具有毁灭性的力量。如果架构的重要性不如并行化的能力，那么当前优化 Transformer 的竞赛就是一场优化跑步机，而不是通往根本上更智能系统的道路。
鹈鹕反转测试是 AI 泛化失败的最清晰的例证之一。它足够简单，孩子可以解决，但对于最先进的模型来说却是不可能的。这种差距应该让任何押注当前架构达到人类水平智能的人感到担忧。
Jones 的研究哲学“我不知道，这没关系”与行业目前的模式相反。每个主要的实验室都在以具体的时间表和基准冲刺 AGI。他认为真正的突破将来自那些根本不试图达到基准的人。
“受自然启发”和“生物学上合理”之间的区别是微妙但重要的。你不需要复制大脑；你需要注意到它做了你的系统没有做的事情，并询问这种差距是否重要。

观看原视频 →