2026年1月5日 · 演讲 · 1h 50min
黄仁勋 CES 2026 主题演讲:六芯片革命与物理人工智能时代
两个同步发生的平台转变正在重塑整个计算行业。不仅仅是 AI 作为一个新的应用层,而是一种对软件构建、运行和交付方式的根本性再造。黄仁勋在 2026 年 CES 上的主题演讲,几乎用了两个小时的时间,全面展示了英伟达的全栈雄心:从开放的前沿模型到自动驾驶汽车,再到一种使用热水冷却的新型超级计算机。
一切同时发生的年份
黄仁勋以 AI 突破的压缩时间线开场。2015 年的 BERT,2017 年的 Transformer,2022 年的 ChatGPT 时刻。然后是真正的转折点:2023 年 OpenAI 的 o1 模型,它引入了测试时缩放,一种花哨的说法,意思是“AI 在回答之前会思考”。每个阶段都需要指数级增长的计算能力:预训练、使用强化学习的后训练,以及现在作为思考过程本身的推理。
资金计算:大约 10 万亿美元的传统计算基础设施正在进行现代化改造。每年有数千亿美元的风险投资。在全球 100 万亿美元的经济体中,企业的研发预算正在从传统方法转向 AI。这就是资金的来源。
2025 年带来了三个具体的催化剂。Agentic 系统激增,黄仁勋点名 Cursor,称其“彻底改变了我们在英伟达进行软件编程的方式”。DeepSeek R1 证明了开源推理模型可以达到接近前沿的质量。物理 AI 从研究概念转变为可部署的堆栈。
“DeepSeek R1, the first open model that’s a reasoning system. It caught the world by surprise and it activated literally this entire movement.” DeepSeek R1,第一个开源的推理系统。它让世界感到惊讶,并真正激活了整个运动。
英伟达作为前沿 AI 实验室
黄仁勋演讲中一个不太明显的部分:英伟达现在运营着价值数十亿美元的 DGX Cloud 超级计算机,不是作为一项云业务,而是作为其自身的 AI 研究基础设施。其产出是一系列跨领域的开放前沿模型,这些领域是大多数 AI 实验室不触及的:
- Proteina 和 OpenFold 3:蛋白质合成和结构预测
- EVO 2:多蛋白质生成,细胞级表示的开端
- Earth 2:用于天气预测的 AI 物理,包括 Forecast Net 和 CorDiff
- Nemotron 3:一种混合的 Transformer-SSM 架构,可以思考得更长或更快,并且会有更多变体
- Cosmos:一个理解物理定律并与语言对齐的世界基础模型
- GROOT:人形机器人关节和运动
所有模型都与训练数据一起开源,并附带生命周期管理库(NeMo、BioNeMo、PhysicsNeMo、Clara),涵盖从数据处理到部署的整个过程。黄仁勋指出,英伟达对开放 AI 研究的贡献是“首屈一指的”,并声称这些模型在智能基准、PDF 解析、语音识别和语义搜索方面名列前茅。
“Not only do we open source the models, we also open source the data that we use to train those models, because only in that way can you truly trust how the models came to be.” 我们不仅开源模型,还开源用于训练这些模型的数据,因为只有这样,你才能真正信任这些模型是如何产生的。
Agentic 架构
黄仁勋概述了他认为未来应用程序的规范架构:多模态(语音、图像、文本、视频、3D)、多模型(为每个子任务选择最佳模型)、定义上的多云,以及用于边缘部署的混合云。
关键的见解是“基于意图的模型路由器”,本质上是一个管理层,它根据任务将提示路由到正确的模型。一个现场演示展示了一个基于 DGX Spark 构建的个人助理,它使用前沿云模型来处理一般任务,但将与电子邮件相关的提示路由到本地运行的开源模型以保护隐私。同一个 Agent 控制着一个物理机器人(Hugging Face 的 Reachi),使用工具调用,并使用 11 Labs 进行语音合成。
黄仁勋的观察:他首先在 Perplexity 注意到这种多模型模式,并“认为这完全是天才之举”。这意味着 AI 应用程序不再是单体的。它们是由推理编排的专业模型的组合。
“Not only is this the way that you develop applications now, this is going to be the user interface of your platform.” 这不仅是现在开发应用程序的方式,而且将成为你平台的界面。
已经部署这种模式的企业集成包括:Palantir、ServiceNow、Snowflake、Code Rabbit、CrowdStrike、NetApp。Agentic 系统本身成为界面,取代了传统的仪表板和命令行。
物理 AI:三台计算机,一个问题
物理 AI 部分是主题演讲的核心。黄仁勋将其围绕一个根本性的挑战展开:你如何让 AI 对物理世界有常识?物体永存性、因果关系、摩擦力、重力、惯性,这些对于幼儿来说显而易见,但对于语言模型来说却一无所知。
解决方案需要三台计算机协同工作:
- 训练计算机:用于模型训练的 DGX 系统
- 推理计算机:在汽车和机器人中运行的边缘处理器(Orin、Thor)
- 模拟计算机:用于数字孪生的 Omniverse,黄仁勋说英伟达在其中“最舒服”
数据问题是瓶颈。现实世界的视频捕获永远不够多样化。黄仁勋强调的突破是将计算转化为合成训练数据:将交通模拟器的输出输入到 Cosmos 中,Cosmos 生成物理上合理的环绕视频,供 AI 学习。Cosmos 从单个图像执行生成、推理和轨迹预测,并支持交互式闭环模拟,其中 AI 行动,世界做出反应。
“The ChatGPT moment for physical AI is nearly here.” 物理 AI 的 ChatGPT 时刻即将到来。
Alpamo:一辆可以自我解释的汽车
英伟达的第一个端到端自动驾驶 AI,从摄像头输入到驱动输出进行训练。Alpamo 的独特之处在于:它会推理自己的行为,在执行之前解释它要做什么以及为什么。
训练管道结合了三个数据来源:人类演示驾驶、Cosmos 生成的合成数据,以及数十万个精心标记的示例。推理能力专门针对长尾问题。不可能收集每个国家和每种情况下所有可能的驾驶场景。但是,任何新的场景,当分解成更小的子场景时,都会变得易于管理。AI 通过熟悉情况的组合来推理,以处理新的情况。
安全架构是故意冗余的。Alpamo(学习堆栈)与经典的 AV 堆栈并行运行,该堆栈花费了六到七年的时间构建,并且完全可追溯。策略和安全评估器持续决定哪个堆栈应该控制汽车。高置信度场景交给 Alpamo。低置信度回退到经典堆栈。这是世界上唯一一辆同时运行两个 AV 堆栈的汽车。
第一辆由 Alpamo 驱动的梅赛德斯-奔驰 CLA 将于 2026 年第一季度在美国上市,第二季度在欧洲上市,第三季度至第四季度在亚洲上市。NCAP 评定其为世界上最安全的汽车,每一行代码和芯片都经过安全认证。与梅赛德斯的合作始于五年前。包括模型在内的整个 Alpamo 堆栈都是开源的。
“In the next 10 years, I’m fairly certain a very large percentage of the world’s cars will be autonomous or highly autonomous.” 在未来 10 年内,我相当肯定世界上很大一部分汽车将是自动驾驶或高度自动驾驶的。
工业 AI:回归本源
黄仁勋将英伟达的技术定位为全面回归,服务于最初使英伟达成为可能的行业。宣布了三项主要的集成:
- Cadence:CUDA X 集成到仿真器和求解器中,用于工厂仿真的物理 AI,用于 EDA 的 AI 物理
- Synopsys:逻辑设计和 IP 加速
- 西门子:CUDA X、物理 AI、Agentic AI 和 Nemotron 深入集成到 EDA、CAE 和数字孪生平台中,涵盖从设计到生产到运营的整个工业生命周期
愿景:芯片由 AI 辅助工具设计,在本身就是“巨型机器人”的工厂中制造,所有这些都在数字孪生中进行端到端模拟,然后再构建任何物理的东西。Agentic 芯片设计师和系统设计师与人类工程师并肩工作,镜像了今天代码中 Agentic 软件工程师的模式。
Vera Rubin:打破规则以保持步伐
硬件的核心。英伟达有一个内部规则:每代芯片的更改不超过一到两个。对于 Vera Rubin,他们打破了这个规则,同时重新设计了所有六个芯片。原因是算术。
摩尔定律每代大约提供 1.6 倍的晶体管。但是 AI 模型每年增长 10 倍。Token 生成每年增长 5 倍。Token 成本每年下降 10 倍。半导体交付的能力与 AI 需求之间的差距是无法通过渐进式改进来弥合的。黄仁勋称这种应对为“极端协同设计”:15,000 工程师年的投资,以同时在每个芯片和堆栈的每一层进行创新。
“It is impossible to keep up with those kind of rates unless we deploy aggressive extreme co-design, basically innovating across all of the chips across the entire stack all at the same time.” 除非我们部署积极的极端协同设计,基本上同时在所有芯片上、整个堆栈上进行创新,否则不可能跟上这种速度。
六个芯片
Vera CPU:88 个内核,具有空间多线程(全性能下 176 个有效线程)。每瓦性能是世界上最先进 CPU 的 2 倍。与 ConnectX-9 协同设计,用于一种新型的数据处理。
Rubin GPU:5 倍于 Blackwell 的浮点性能,但晶体管数量仅为 1.6 倍。关键的创新是 MVFP4 张量核心,它不是一个简单的 4 位浮点数据路径,而是一个完整的处理单元,可以动态调整 Transformer 层的精度。它在可以权衡精度的地方提高吞吐量,并在需要时恢复最大精度,所有这些都在处理器内部自适应地发生,因为它太快了,无法进行软件控制。黄仁勋暗示这种格式可能成为行业标准。
ConnectX-9:每个 GPU 1.6 Tb/s 的横向扩展带宽,与 Vera CPU 协同设计,并且从未独立发布。
BlueField 4 DPU:处理虚拟化、安全性和南北向网络。还支持一种新的产品类别:机架内 KV 缓存上下文存储。
NVLink 6 交换机:四个交换机芯片,具有 400 Gb/s SerDes(行业几乎达不到 200)。每个机架的横截面带宽:240 TB/s,大约是整个全球互联网 ~100 TB/s 的两倍。
Spectrum X 光子交换机:世界上第一个使用台积电 CoUPE 共封装光学工艺制造的芯片,具有直接集成的硅光子。512 个端口,每个端口 200 Gb/s。激光器直接连接到芯片中。
系统级数字
单个 Vera Rubin NVLink 72 机架:144 个 Rubin GPU(每个 GPU 都是两个 GPU 芯片连接而成),220 万亿个晶体管,大约两吨重。机箱经过了彻底的改造:43 根电缆减少到零,组装时间从两小时缩短到五分钟。两英里的屏蔽铜缆形成 NVLink 主干,总共 5,000 根。100% 液冷,入口温度为 45 摄氏度(无需冷却器),尽管功耗是 Grace Blackwell 的 2 倍,但仍可节省大约 6% 的数据中心电力。
与 Blackwell 相比的性能:在一个月内训练一个 10 万亿参数的模型所需的系统数量减少 4 倍。每瓦 ~10 倍的工厂吞吐量。每个 Token 的成本降低 ~10 倍。
新的系统功能:在每个总线(PCIe、NVLink、CPU-GPU、GPU-GPU)上进行加密的机密计算,以及系统范围的功率平滑,消除了为 all-reduce 峰值超额配置 25% 的需求。
KV 缓存危机
一个扩展的部分,揭示了一个真正的运营痛点。生成的每个 Token 都需要 GPU 读取整个模型和整个 KV 缓存(工作内存)。随着对话越来越长,模型越来越大,Agent 保持持久的上下文,HBM 容量不堪重负。
进展:Grace Blackwell 将上下文内存扩展到快速 CPU 内存。仍然不够。下一步是转移到网络存储,但是当许多 AI 同时运行时,南北向网络无法处理流量。
Vera Rubin 的答案:由 BlueField 4 驱动的机架内 KV 缓存存储。每个 BlueField 4 后面都有 150 TB 的内存。分配给 GPU 后,每个 GPU 都会获得额外的 16 TB 上下文内存(在每个 GPU 约 1 TB HBM 的基础上),以 200 Gb/s 的全东西向结构速度访问。黄仁勋说,云提供商和 AI 实验室“真的在遭受”KV 缓存流量的困扰,这使其成为一个真正的新产品类别,而不是营销活动。
“A $50 billion data center can only consume one gigawatt of power. And so if your throughput per watt is very good versus quite poor, that directly translates to your revenues.” 一个价值 500 亿美元的数据中心只能消耗 1 吉瓦的电力。因此,如果你的每瓦吞吐量非常好,而不是很差,那将直接转化为你的收入。
一些想法
本次主题演讲中最能说明问题的信号是英伟达打破了自己的设计规则。同时重新设计六个芯片,而不是通常的一到两个,不仅仅是工程上的雄心。它承认,仅靠半导体跑步机已无法维持 AI 的增长曲线。英伟达正在从“芯片公司”转型为“AI 基础设施系统公司”,其中创新单位是整个机架,而不是单个处理器。
Alpamo 的双堆栈安全架构为行业中端到端与模块化的辩论提供了一条务实的中间道路。英伟达没有完全押注于学习驾驶或完全押注于手工制作的规则,而是同时运行两者,并由策略评估器在两者之间进行选择。开源一项历时八年、数千人参与的工作,是押注于标准化英伟达的 AV 计算平台(Orin、Thor)比拥有软件堆栈更重要。
一些值得关注的线索:
- MVFP4 张量核心代表了从固定精度算术到自适应、上下文感知计算的概念转变。如果它像黄仁勋预测的那样成为行业标准,它将改变每个 AI 芯片制造商对精度-性能权衡的看法。
- KV 缓存基础设施的部署(BlueField 4 + 机架内存储)可能是沉睡的公告。随着 AI Agent 保持更长的持久上下文,推理内存管理可能会成为 AI 基础设施经济学中的主要瓶颈。
- 黄仁勋对 DeepSeek R1 的赞扬(“让世界感到惊讶并激活了整个运动”)在战略上是慷慨的:下载的每个开源模型都是英伟达 GPU 的另一个客户。
- Spectrum X 的经济论证非常简单。一个 1 吉瓦的数据中心花费 500 亿美元。10% 更好的网络吞吐量价值 50 亿美元。网络硬件“基本上是免费的”。这种价值捕获逻辑解释了为什么英伟达在短短两年内成为世界上最大的网络公司。