2026年1月29日 · 演讲 · 1h 42min
斯图尔特·罗素谈为何人工智能安全需要大型科技公司之外的声音
斯图尔特·罗素认为,我们正处于一个文明的转折点:最有可能重塑人类的技术正在几乎没有任何保障措施的情况下被开发,而推动保持这种状态的力量并非来自证据,而是来自资本。
会议内容
这是国际安全与伦理人工智能协会 (IASEAI) 的首次 AMA 网络研讨会。该协会成立于 2024 年,拥有来自 100 多个国家/地区的 136 个附属组织。斯图尔特·罗素是人工智能安全领域最杰出的声音之一,也是《人工智能:一种现代方法》的作者,他担任临时主席。马克·尼茨伯格是临时执行董事。会议涵盖了 IASEAI 2026 年的优先事项,然后展开了广泛的问答环节,涉及治理、责任、劳动力中断、开源风险以及人工智能监管的政治经济学。罗素的风格一如既往地直率,将政策分析与技术细节和令人难忘的比喻交织在一起。
IASEAI 2026 年的四大支柱
该组织围绕四大支柱构建:社群、研究、政策和教育。从大约 50 份提案中,理事会已经缩小了每个支柱下的具体目标:
政策是最锋利的利刃。优先事项包括:知情权,即了解您是在与机器还是与人互动;人工智能互动隐私标准,确保对话不被共享或用于训练;限制致命性自主武器,可能包括对成员具有约束力的原则,类似于美国医学协会禁止参与处决;行为红线,定义不可接受的人工智能行为(自我复制、为生物武器提供建议、冒充人类),并在部署前证明合规性;以及儿童保护规则,防止人工智能系统在儿童中产生情感依赖。
社群:扩大成员和参与度。IASEAI 完全依靠志愿者运作,不接受企业捐赠,刻意将自己定位为独立于大型科技公司的影响。
研究:为安全奠定技术基础。罗素强调需要数学框架,可以提供关于人工智能行为的保证,特别是围绕用户实际需求的正式规范。
教育:提高公众对人工智能风险的认识。罗素指出,公众舆论已经倾向于谨慎,但缺乏有组织的渠道来影响政策。
该组织还在寻求与 ISO 的联络地位,发展联合国和教科文组织的认证,并建立区域分会。
责任:最强大的杠杆
罗素在会议上提出了最强有力的论点,即责任是主要的治理工具。他的推理比“惩罚不良行为者”更深入。
当前的法律框架已经崩溃。科技行业长期以来通过用户协议来免除责任。罗素引用了微软的许可协议,该协议将责任限制在 5 美元:
“Which obviously is basically a rude sign that Microsoft is making to you.” 这显然是微软向你发出的一个粗鲁的信号。
如果一家制药公司发布了一种对人有害的药物,将适用严格责任。但人工智能公司经常逃避损害赔偿。罗素认为这种情况需要改变,他从航空业汲取了一个有力的历史教训。
波音公司为了赶在 737 Max 8 上市之前,绕过了适航认证。两次坠机事件导致 346 人死亡。总成本达到约 800 亿美元,美国将商业航空的领导地位让给了空客多年。
“For those who think that regulation only stifles innovation, in this case it was the other way around. The United States lost its leadership in commercial aviation because of deregulation.” 对于那些认为监管只会扼杀创新的人来说,情况恰恰相反。美国因放松管制而失去了在商业航空领域的领导地位。
罗素描述的良性循环是:责任创造了对保险的需求,保险公司要求安全流程,而公司实际上建立了安全机制。伯克利大学的经济学系目前认为责任是“可能最强大的杠杆”。
他提供了另一个历史先例:早期的家用电力经常引起火灾和触电。保险公司联合创建了美国保险商实验室 (UL),至今仍然是一个价值数十亿美元的非营利认证组织。如果没有它,电力的广泛应用将会困难得多。监管鼓励了创新。
行为红线和部署前批准
除了责任之外,罗素还提倡行为红线,并提出了一个至关重要的转变:它们必须在部署前批准模式下运行,而不是在造成损害后处以罚款的模式。
类比是建筑和航空:建筑物必须通过检查才能开放,飞机发动机必须连续运行 80,000 小时而没有故障才能获得适航认证。您需要在部署前证明安全性,而不是在灾难发生后支付罚款。
不同的危害需要不同的风险承受能力。冒充人类可能每月可以接受一次。但对于“20% 的人类灭绝概率”,标准应该是“每年十亿分之一的机会”。
科技公司对此的反应是可以预见的:“我们不知道如何遵守任何关于风险的要求,所以你不允许有任何这样的要求。” 罗素的反驳:
“That argument wouldn’t go down too well for nuclear power stations or for medicines or for buildings or airplanes.” 这种说法在核电站、药品、建筑物或飞机上可行不通。
然而,核心技术难题是真实存在的:因为我们不了解大型语言模型是如何工作的,所以量化风险评估仍然是不可能的。而且,与地震等随机事件不同,人工智能安全面临着恶意用户的对抗性挑战,他们会积极寻找漏洞。
巨鸟问题
罗素最令人难忘的比喻概括了整个人工智能安全困境:
想象一下,航空业没有建造机械飞机,而是饲养非常大的鸟类来运送乘客。美国联邦航空管理局 (FAA) 要求安全标准。公司回答说:“我们无法提供任何保证,因为我们不知道这些鸟是如何工作的。而且,它们一直在吃乘客或把他们扔进海里。当然,我们也不承担任何责任。”
“That’s the situation that we’re in.” 这就是我们所处的境地。
这意味着一个根本性的问题:除非我们以我们真正理解的方式开发人工智能系统,在那里我们可以预测和控制它们的行为,否则这个问题是无法解决的。罗素认为,这可能意味着“建造方法,即用 10 万亿个参数训练一个巨大的黑匣子,是不可行的,因为它不支持我们人类所需要的安全保证和行为约束。”
这并不意味着放弃人工智能。这意味着当前的建造方法可能不适用于高风险应用。
硬件治理:唯一可执行的层面
罗素在技术上最具雄心的提议:硬件支持的治理。
其逻辑是严峻的。恶意软件可以零成本复制,以光速传输,并匿名发布。你无法通过传统手段来管理它。但是硬件生产需要数千亿美元的设备和数万名工程师。恶意行为者无法轻易绕过现有的供应链。
核心概念:将合规性检查构建到硬件中,以便在执行之前验证软件的安全属性。这类似于现有的 DRM 和浏览器证书机制,但应用于人工智能安全。至关重要的是,合规性证明方法不需要任何中央机构,从而避免了权力集中。
罗素咨询了硬件架构师、互联网架构师、网络安全专家和形式化方法研究人员,他们“从技术和组织的角度来看都相当乐观”。
罗素显然很喜欢的一个额外好处:这种方法逐渐挤压了恶意软件,因为恶意软件无法携带安全证明,并且会在硬件级别被拒绝。
Klarna 的教训
关于劳动力流失,罗素首先介绍了一个案例研究。Klarna 用人工智能取代了客户服务员工,然后在六个月后撤销了该决定,因为人工智能系统“并不真正了解发生了什么”,客户变得“非常沮丧”。
罗素对“人工智能超越人类”的说法持更广泛的怀疑态度。他的预测是:我们将高估人工智能的能力,用我们认为更好的系统取代人类,而组织将“逐渐瓦解”,而且“很可能以非常微妙的方式”。
更深层次的结构性问题超出了个别公司的决策。制度性的“减速带”,如审批链和等待期,是为行动缓慢的人类设计的。当人工智能在几毫秒内做出决策时,这些安全机制需要重建到人工智能本身中。罗素提出了一个未被充分讨论的场景:当人工智能决策系统明显优于 CEO 时,董事会可能会坚持将决策权交给人工智能。如果这些系统出现偏差,后果可能会很严重。
在宏观劳动力方面,罗素拒绝了标准的技术乐观主义叙事。之前的技术革命将工人从特定的体力劳动中转移出来,但认知工作基本上没有受到影响。人工智能直接针对认知劳动。农业转型花费了一个世纪:1900 年美国大约有 40% 的劳动力从事农业,到 2000 年降至 2% 以下,但它仍然造成了巨大的社会动荡。人工智能驱动的劳动力流失可能会在十年内发生。如果人类能够比人工智能做得更好的任务越来越少,那么仅靠再培训是不够的。
围攻下的批判性思维
罗素观察到他的学生中出现了一些令人担忧的事情。本科生、研究生,甚至资深科学家都在将论文写作、证明推导和文献综述外包给人工智能,而没有意识到输出通常是“毫无意义的胡言乱语”。
“If you sit in your armchair and you have a robot practice free throws, you’re not going to become a great basketball player. It’s just as simple as that.” 如果你坐在扶手椅上,让机器人练习罚球,你不会成为一个伟大的篮球运动员。就这么简单。
他引用了飞行员的比喻:自动驾驶仪会导致技能退化,需要进行大量更定期的训练才能保持手动着陆能力。一位伯克利的同事的做法很有启发性:学生必须使用大型语言模型来生成论文提示,但提交原始的大型语言模型输出会得到零分。评分是基于改进它的能力。
但动机问题更为深刻。罗素提到了电视剧《真实的人类》,其中一个女儿说:“我需要学习七年才能成为一名外科医生,机器人需要 7 秒钟。我为什么要费心呢?” 对于那些还不能改进大型语言模型输出的学生来说,这不可避免地会腐蚀学习本身的感知目的。
放松管制的陷阱
罗素的政治分析是 AMA 中最激烈的章节。他讲述了事情是如何转变的时间线:
在 2024 年美国大选之前,人工智能安全是两党共同关注的问题。民主党和共和党都承认人工智能的经济潜力,同时认识到对就业、儿童福祉和超智能系统风险的威胁。政客们本能地将自己定位在“人类一方”。
然后风险投资家介入了。风险投资界大力推动放松管制,最初是通过特朗普,然后通过“向下渗透”成为共和党的立场。美国的官方立场不仅是国内放松管制,而且还积极对其他国家施加经济压力以放松管制。
罗素发现为放松管制而提出的“中国论点”特别空洞:
“China has maybe the strictest AI regulation in the world. So that whole debate is sort of misplaced.” 中国可能拥有世界上最严格的人工智能监管。所以整个辩论有点文不对题。
科技公司的行为是矛盾的:公开呼吁政府监管人工智能风险,而他们的游说者却在努力“破坏欧洲人工智能法案”。
“We don’t have 20 trillion dollars of capital behind us unlike the tech companies, but our position is much more in line with the position of the vast majority of people.” 我们不像科技公司那样拥有 20 万亿美元的资本支持,但我们的立场与绝大多数人的立场更加一致。
民意调查始终显示,公众对人工智能对就业、儿童以及构建超智能系统的想法表示严重担忧。罗素指出,人们不明白为什么会有人想要构建比全人类更聪明的东西。IASEAI 的作用是引导和激活这种观点。
全球数据偏差和文化差异
一位成员提出的关于跨文化价值对齐的问题引发了细致的讨论。“公平”因文化而异:对于年龄和健康状况相同的人,人寿保险价格是否应因性别而异?一些国家说是,另一些国家说不。在美国或西方数据上训练的人工智能系统可能不适合其他环境。
发展中国家面临的挑战更加复杂。传统的低成本制造业出口路径正受到机器人和人工智能的破坏(美国制造业产出上升,而就业人数下降)。经常被认为是新机会的 RLHF 标注工作只是暂时的。印度有数百种语言,其中许多语言的数字数据集很小。《欧盟人工智能法案》要求“具有代表性的数据集”,但罗素坦率地指出:“我认为没有人知道这意味着什么。”
罗素澄清了关于他自己对齐工作的一个常见误解。他并不是提议将一套单一的价值观编程到人工智能中。他在《人类兼容》中提出的框架是关于人工智能系统对人类偏好不确定,并通过观察和互动来学习,正是因为这种不确定性而服从人类的判断。更深层次的担忧不是文化分歧,而是权力集中:如果一家公司或一个国家的价值观被融入到占主导地位的人工智能系统中,那就是文化帝国主义,无论这些价值观属于谁。
结束语
这次 AMA 展示了罗素最具政治参与性的一面,他超越了学术人工智能安全,进入了以特定目标为导向的激烈政策倡导:风险投资驱动的放松管制、伪装成安全倡导的企业游说以及空洞的“但中国”论点。
以下是一些值得思考的见解:
-
在可实现性方面,责任胜过监管。 虽然大多数人工智能治理讨论都集中在部署前规则上,但责任会改变激励机制,而无需监管机构深入了解该技术。波音公司的例子是毁灭性的,因为它表明了绕过责任会发生什么,而不仅仅是应用责任会发生什么。
-
巨鸟比喻可能是人工智能安全领域最重要的框架。 它不是反对人工智能;它认为当前的建造方法(用数万亿个参数训练不透明的模型)可能从根本上与文明所需要的安全保证不相容。这是一种结构性批评,而不是勒德分子式的批评。
-
硬件治理在技术上是可行的,但在政治上尚未得到充分探索。 物理层面的合规性层避免了监管软件这一不可能完成的任务,罗素的咨询表明,工程界认为它是可行的。
-
罗素对劳动力的悲观态度比它所受到的关注更值得关注。 大多数人工智能领导者都在回避劳动力问题,或者对“新工作”提供含糊的保证。他将长达一个世纪的农业转型与可能长达十年的认知自动化进行了比较,这是一个令人清醒的算术,而该行业更愿意避免面对。
-
IASEAI 的独立模式既是其最大的优势,也是最明显的弱点。 没有企业资金,没有企业影响,但也没有资源与大型科技公司的游说活动竞争。赌注是,在 2026 年的政策战中,道德权威和有组织的公众舆论可以胜过资本。