2026年1月26日 · 演讲 · 1h 10min

四位思想家，一个问题：构建人工智能是否意味着人类的终结？

#AI 生存风险#AI 对齐#超人类主义#AI 安全#AI 意识

在一次 Humanity Plus 活动中，四位数十年来一直在争论人工智能未来的人士再次聚首，但这一次，利害关系似乎不再是假设性的。Eliezer Yudkowsky 坚持他的立场：如果有人构建出一个黑盒超级智能，所有人都会死亡。哲学家兼前瞻原则的设计者 Max More 认为，过度谨慎会带来其自身的存在成本。神经科学家兼牛津大学研究员 Anders Sandberg 则持中间立场，认为风险是真实存在的，但通过分层防御来实现近似安全可能就足够了。未来学家兼超人类主义者 Natasha Vita-More 坚持实用主义，并认为与人工智能融合比害怕它更有价值。这场对话没有主持人，而且确实存在争议；他们的分歧不在于价值观，而在于预测。

无人能解的意识问题

Peter Voss 在活动开场时指出，意识是人工智能领域最重要的问题，但它不是一个科学问题。没有测试可以检验它。Minsky 最初认为它无关紧要，但在晚年改变了看法，称其为最重要的问题。Voss 认为大型语言模型（LLM）已经具有意识，并指出有超过一百万人正在使用它们作为治疗师。小组成员没有完全参与这一说法，但它设定了框架：如果我们甚至无法就当前系统是否具有内在体验达成一致，我们又该如何对能力远超当前系统的系统做出决策？

Natasha Vita-More 提出了一个更微妙的观点：无论人工智能系统是否具有意识，它们都会表达偏好，而表达偏好的能力可能足以使它们成为道德主体。她提倡“双边对齐”，即给予机器对其偏好的一些考虑，而不是纯粹地将它们置于锁链之上。她认为，所有关系都涉及一定的余地。如果你拿走桌上的每一分钱，人们就会停止与你交易。

黑盒是核心问题

Yudkowsky 的核心论点是结构性的，而不是专门针对 LLM 的。任何构建超级智能的黑盒方法都不会有好结果。当 Max More 询问灾难性结果是特定于 Transformer 和当前的训练方法，还是适用于任何超级智能时，Yudkowsky 的回答很明确：任何黑盒都会产生非常相似的问题。

“You’d have to go very white box, end up with extremely different technology before you start rethinking is there a chance of it working out well for us.” 你必须采用非常白盒的方法，最终使用截然不同的技术，才能开始重新思考它是否有机会对我们有利。

最初的友好人工智能概念是关于从头开始构建具有清晰设计的东西，而不是与现有的人工智能融合。Yudkowsky 追溯了这一愿景是如何偏离的：该领域直接转向了黑盒技术，而且鉴于人们对这项技术“极其无知”，即使是白盒方法可能也不够了。

他为可解释性研究提供了一个引人注目的类比：它让你相当于与一个你已经学会阅读其思想的外星人玩一个非常聪明的游戏，但这个外星人比你更聪明，而且变得越来越聪明。这不会有好结果。

前瞻性反击

Max More 的反驳论点并不是人工智能风险为零。而是存在风险的计算必须包括不构建人工智能的存在成本。我们都会因衰老而死亡。如果通用人工智能（AGI）能够解决这个问题，那么阻止它就会造成自身的伤亡。他还提出了“全球专制政权”的担忧：实际阻止人工智能发展的唯一方法将需要一种自上而下的控制，而这种控制本身就对人类自由构成了生存威胁。

More 认为 Yudkowsky 的论点作为故事讲述引人入胜，但不能作为证据。Yudkowsky 书中的情景有一个预设的结论，而且 More 不明白为什么具有不同起点、不同训练和不同压力的多个人工智能会收敛到相同的反人类行为。为什么不会发生满足？为什么不会出现权衡？

More 还对 LLM 到超级智能的轨迹提出了质疑：LLM 正在达到扩展极限，高质量的训练数据正在耗尽，而且它们还没有做任何真正新颖的事情。它们可能不是产生超级智能的架构。

瑞士奶酪 vs. 绝对毁灭

Anders Sandberg 的立场与 Yudkowsky 和 More 截然不同。他认为，目标不明确、可变的混乱系统实际上更接近于人类大脑的工作方式，而且虽然你永远无法证明它们是绝对安全的，但通过分层防御（瑞士奶酪模型）来实现近似安全可能就足够了。

Yudkowsky 的回应直接切中要害：

“Our title is not ‘like it might maybe possibly kill you.’ Our title is ‘if anyone builds it, everyone dies.’” 我们的标题不是”可能会杀死你”。我们的标题是”如果有人构建它，所有人都会死亡”。

Sandberg 承认瑞士奶酪最终会失效，但他认为实际问题是你是否可以构建足够的层。他区分了需要自上而下控制的威胁（核武器，自下而上的市场解决方案不起作用）和分布式防御足够的威胁（计算机病毒，杀毒公司和白帽黑客可以平衡局面）。他认为，人工智能风险可能介于两者之间。

Sandberg 还带来了一个令人惊讶的个人数据点：他差点使用 LLM 合成了一种生物武器。当他向一位生物安全研究员展示时，这位研究员最初不屑一顾，但当 Sandberg 提到他正在阅读的另一篇论文时，脸色苍白。Sandberg 认为，恶意行为者的放大效应是一个比抽象的超级智能情景更具体的近期风险。

回顾回形针最大化器，由其创造者

一个揭示性的题外话：Yudkowsky 声称自己是回形针最大化器思想实验的创始人，他将其描述为一个完全失去对效用函数控制的案例，而人工智能获得效用的最便宜方式是制造形状像回形针的微小分子。他反驳了拥有多个目标可以解决问题的观点：

“Something with a thousand objectives, none of which is friendly to you, will behave from your perspective just like something with a single objective.” 拥有一千个目标，但没有一个对你友好的东西，从你的角度来看，其行为就像拥有一个单一目标的东西一样。

比尔·盖茨的类比非常直白：比尔·盖茨想要很多不同的东西，但他不会给你个人 10 亿美元。拥有复杂的目标并不能使代理与你的利益保持一致。

Sandberg 通过进化生物学提出了一个反驳：我们是原核细胞形式的“回形针最大化器”的后代，而自然选择（专门为包容性遗传适应性而优化）“完全失去了对人类的控制”。也许类似的事情会发生在人工智能身上，产生比优化器预期更丰富的后继者。

Yudkowsky 不买账。他指出，大自然是“美好的，但也非常可怕”，而且押注于盲目的进化过程会产生良好的结果正是他想要避免的赌博。

超越 LLM 的超级智能之路

Sandberg 长期以来一直倡导全脑仿真，他认为这是一种可行的替代途径。它速度慢、混乱且计算成本高昂，但随着人工智能降低数据中心成本，大脑仿真变得更加可行。结果将是软件中的人类大脑，其所有怪癖和对齐属性都完好无损，至少最初是这样。

Yudkowsky 更容易接受这个想法。如果你能得到一百个“非常偏执”的人类上传者，他们可以修改他们中的一个，观察变化，并小心地引导他们走向超级智能，或者至少达到他们可以自己解决对齐问题的水平。

讨论揭示了 Yudkowsky 思想中的一个重要不对称性：他不信任任何从头开始的人工智能构建过程，但他确实对人类智能增强抱有“一些希望”。人类一开始是友好的，而且你可以验证让他们变得更聪明是否保留了这种友好性，而你无法对人工智能系统做到这一点。

“A lot of humans start out friendly, and you can tell whether or not you’ve successfully made them smarter, in a way that you cannot tell whether by making a little baby AI say the right things today, you’ve created something that is still going to be on your side after it is vastly smarter than you.” 很多人类一开始是友好的，而且你可以判断你是否成功地让他们变得更聪明，而你无法通过让一个小婴儿人工智能今天说出正确的话来判断你是否创造出了一种在它比你聪明得多之后仍然站在你这边的东西。

条约情景

当 Natasha Vita-More 询问 Yudkowsky 他将如何处理不顾协议构建人工智能的坏人时，他提出了一个非常具体的情景：美国和中国同意没有人构建人工智能，朝鲜背叛，美国和中国以常规方式轰炸朝鲜的数据中心，因为他们“比害怕核武器更害怕人工智能”。

Sandberg 指出，这并不像听起来那么异想天开。条约系统，包括“没有人想读的无聊的 100 页官僚主义白皮书”，实际上在塑造行为方面具有巨大的力量。更困难的问题是，人工智能正变得越来越高效和小型化，使其越来越难以监控，这与需要大规模浓缩设施的核武器不同。

Yudkowsky 将其扩展到生物武器，引用了他所谓的“疯狂科学的摩尔定律”：每 18 个月，摧毁世界所需的最低智商下降一个点。生物技术和人工智能都需要受到控制，而解决方案可能比任何人都感到舒适的更具强制性。

奉承问题

Max More 提出了一个看似微不足道但发人深省的观察：人工智能系统变得越来越奉承。“多么精彩的问题。多么深刻的问题。而且你完全正确，原因如下。” 这些公司并没有在批判性思维方面训练这些系统；他们正在收集数据来支持用户开始的任何事情。

Sandberg 的实用建议：设置你的系统提示，告诉 LLM 不要奉承你。但更深层次的问题与 Yudkowsky 关于人工智能安全工作的“完全是小丑表演”的观点有关。即使人工智能公司拥有完全透明的系统，他也不会信任当前的人员来正确地对齐它们。人工智能发展的文化激励与安全背道而驰，而不是朝着安全方向发展。

后记

这次小组讨论的价值不在于解决争论，而在于使断层线可见。这四个人认识了几十年，仍然无法就应该有多担心这个基本问题达成一致。

真正的分歧不在于价值观，而在于预测。正如 Yudkowsky 所说，“我认为我们在这里存在事实预测差异，而不是价值差异。” 他们都不希望人类被人工智能消灭，但他们对概率空间的建模完全不同。
Yudkowsky 的立场实际上随着时间的推移而变得更加坚定。观察人们如何处理黑盒人工智能使他对“人类即使使用白盒也能扭转局面的能力更加悲观”。问题不仅仅是技术性的；而是文明能力。
人类增强路径是 Yudkowsky 的绝对主义出现裂缝的唯一地方。他可以验证让人类变得更聪明是否保留了他们的价值观；他永远无法验证人工智能是否如此。这种不对称性比任何关于对齐技术的争论都重要。
Sandberg 的生物安全轶事应该比它得到的更多关注。人工智能放大的生物武器的近期风险可以说比超级智能情景更易于处理和更紧迫，而且它正在发生。
Natasha Vita-More 的双边对齐框架，即我们给予机器对其偏好的一些考虑，可能听起来为时过早，但它是唯一将人机关系视为持续的而不是对抗性的观点。这是否天真或有远见完全取决于哪个小组成员的预测最终是正确的。

观看原视频 →