2026年2月5日 · 播客 · 44min
Dave Baszucki 谈构建全息甲板:人工智能、物理模拟以及 Roblox 长达 20 年的豪赌
Roblox 的愿景在过去 20 年里一直非常稳定:打造全息甲板。一个高保真的物理模拟环境,成千上万的人聚集在一起做事情。现在的变化是,AI 让这个时间表变得合理。
一个持续了 20 年且仍然有效的商业计划
Dave Baszucki 拿出了一份近 20 年前的商业计划 PowerPoint,并惊叹于它的精确性。该演示文稿设想了一个新的「人类共同体验」类别,一个由物理学支持的模拟环境,你可以在其中建造一辆汽车并驾驶它,吹灭生日蜡烛,砍伐树木并建造房屋。《雪崩》、《一级玩家》、全息甲板。规格没有改变:照片级真实感的图形、10,000 名并发玩家、声学模拟、实时物理。
改变的是 AI 在实现这一目标中的作用。Baszucki 将 AI 定位为一种加速器,而不是产品转型,它加速了一个完全早于当前浪潮的愿景。问题不是「AI 应该为 Roblox 做什么?」,而是「AI 如何让我们更快地到达全息甲板?」
他在两个极端的产品之间划出了一个有趣的范围。一端是:一个具有高保真多人模拟的通信平台,你可以在其中与真人互动。另一端是:「实时梦境」,一种孤独的体验,你周围的每个人都是 NPC,世界会适应你的行为,就像一种进化形式的末日滚动。他提到了《香草天空》,汤姆·克鲁斯在不知情的情况下,在模拟世界中梦想了数年。这两个极端之间的一切都是可能的,Baszucki 预计会出现一些人们尚未想像到的奇怪产品类别。
4D 模拟作为视频的超集
Baszucki 有意使用「4D」:不仅仅是 3D 形状,还有随时间推移的功能。他的论点是,随著多人模拟变得逼真,视频将成为传统的降采样。你总是可以退回到「模拟模式」,让它看起来像 Zoom,但你也可以说「让我们站起来在我的办公室里走走,我想给你看点东西。」
声学物理问题尤其有趣。一千人在 Zoom 上举行的公司会议意味著一堆带有复杂音频混合的方块。在 3D 模拟中,声音会根据距离自然衰减。走近某人,你会听得更清楚。这是一种更自然的人机界面。
他提出了一个令人愉快的边缘案例:一起唱生日快乐歌。无论在什么平台上,你都会晚 30 毫秒听到彼此的声音。他的解决方案:让每个人都用对其他人的时间前向推断来唱歌,然后重新混合它。这些小细节揭示了他们对大规模人类互动物理学的深入思考。
130 亿小时的数据,以向量形式存储
这就是技术上雄心勃勃的地方。Roblox 每月生成 130 亿小时的用户互动数据。他们的愿景是以向量数据(而不是像视频这样的栅格数据)存储此历史记录:可以从任何摄像机角度重播并与之交互的完整 3D 状态。
应用范围从实用到深刻。安全事故?追溯性地放置五个摄像机并收听音频。一个特殊的家庭时刻?从电影角度重新拍摄并制作视频。但真正的作用是训练数据。
“The data we have which is 13 billion hours a month can be reproduced from any camera angle and can interact with the 3D space. So it’s very powerful data.” 我们拥有的数据是每月 130 亿小时,可以从任何摄像机角度重现,并且可以与 3D 空间互动。所以这是非常强大的数据。
当整个行业争先恐后地寻找用于训练的混合视频/键盘互动数据时,Roblox 拥有一个从根本上更丰富的数据集:具有空间上下文的完整 3D 互动数据,对于训练需要在环境中导航和行动的代理来说,远比平面视频更有用。
超越 LLM 的 NPC:三层虚拟分身
Baszucki 概述了一个 NPC 的三层路线图,远远超出了聊天机器人风格的 AI:
第一层:可以胜任任何 Roblox 游戏的 NPC。这些 NPC 在平台的庞大行为数据集上进行训练,而不仅仅是语言模型,它们可以导航、与对象互动并理解游戏机制。
第二层:个人虚拟分身。在用户选择加入的情况下,系统会学习你的手势、你看东西的方式、你说话的方式,创建一个反映你的行为模式的数字孪生。
第三层:具有简单用户界面的代理分身。在你工作时,让你的虚拟自我去和你的孩子玩 15 分钟。这与生产力领域的代理 AI 的类比是直接的,只是应用于社交和游戏环境。
技术方法反映了自动驾驶的转变:从手动编码的启发式方法和决策树转变为端到端学习模型。你不是对 NPC 行为进行编程,而是根据数十亿小时的真实人类行为来训练它们。
架构是混合的,而不是单片的
当被问及基于视频的世界模型(将游戏体验生成为没有物理引擎的纯视频)时,Baszucki 表示尊重,但显然押注于不同的架构。他看到一个多组件管道:
- 一个用于 1,000 多个并发玩家的超高效同步引擎
- 服务器端 3D 状态管理
- 用于照片级真实感的客户端和中间 2D/3D 升采样
- 专用的 NPC 推理能力
- 可能用于特定用例的世界模型组件
关键的见解:困难的未解决问题不是照片级真实感或 NPC 智能。而是实时同步 10,000 人的状态。该状态最好存储在视频潜在空间、原生 3D 格式还是某些未被发现的混合格式中?这就是研究前沿。
Roblox Studio 中的 AI:在你睡觉时努力工作的代理
Roblox Studio 是世界上最大的开发环境之一,AI 编码正在重塑创作者使用它的方式。用户已经将 Claude Code 和类似工具粘贴到他们的工作室工作流程中。
但更独特的愿景是环境生成:文本/图像/视频提示迭代到 3D 骨架,然后迭代到功能齐全的游戏。首次使用的 Studio 用户可以立即获得 AI 生成,而高级用户可以插入他们现有的 AI 工具链。
云原生架构实现了一些强大的功能:启动代理过夜,这些代理在各种设备模拟器上测试、迭代、启动 NPC 作为玩家,并在你睡觉时调整你的游戏。这是应用于游戏创建的代理开发循环。
Baszucki 还描述了按需 AI 资产生成:创作者构建一个原始体验,添加一个提示,例如「使其看起来像中世纪并且更逼真」,并且资产在云中自动以 3D 形式免费升采样。资产存在于从传统文件到 AI 按需生成的范围内,具有动态 LOD(细节层次),可根据设备功能进行调整。
创作者经济:健康增长
Roblox 的顶级创作者现在每年收入超过 3000 万美元,团队规模在 30 多人。更重要的是,Baszucki 注意到一个健康的信号:顶级创作者的平均收入增长速度快于排名第一的创作者的收入,这表明长尾正在加深,而不是赢者通吃的动态。一直到排名第 1,000 位的创作者,都有一个庞大的社区在维持生计。
向实时运营的转变意义重大。由于一切都与云连接,创作者每周甚至每天都会更新他们的体验,就像优秀的网站一样。前 20 名的体验现在都具有真正的竞争力,并且都在争夺榜首位置,这比三四年前更加分散。
在发现方面,Roblox 已转向其算法的完全透明。Baszucki 认为这既是一种竞争优势,也是一种强制功能:如果算法是公开的,他们必须使其真正优秀,而不是可以被游戏化的。
3 倍和 10 倍规划框架
Baszucki 阐明了一个清晰的长期领导框架:始终了解你的 3 倍和 10 倍。
10 倍是全息甲板愿景。没有它,「很难入睡。」3 倍是运营垫脚石:全球游戏内容的 10%,大约 3 亿 DAU 和 200 亿美元,大约是当前规模的 3 倍。这可以「通过法医手段分解」为逐个市场的计划,并在产品团队中进行运营。
“If you don’t know 10x, then it’s hard to sleep at night. If you don’t know 3x, it’s hard to plan forensically.” 如果你不知道 10 倍,那么很难入睡。如果你不知道 3 倍,就很难进行细致的规划。
他将此与「采取长远眼光」加上「完成工作」的价值体系相结合。每周的迭代节奏意味著即使是雄心勃勃的六个月产品计划也会被分解为每周发布。AI 团队、安全团队和面部年龄估计团队都在每周周期内工作。
不看重大学声誉的招聘
五年前,Roblox 收购了 Embliss,这是一家构建 3D 评估工具的公司,用于科学地评估解决问题的能力和创造力。从那以后,他们针对新的大学毕业生和实习生招聘管道对其进行了调整。
该过程通过基于 Roblox 本身构建的评估来运行 50,000-60,000 名候选人:3D 问题,例如编程工厂或使用几何语言编程机器人。这些评估旨在公平且不受社会因素的影响。
前卫的发现:传统精英大学与他们自己的测试结果之间的相关性有限。社区学院和中西部小型工程学院培养的候选人表现同样出色。他们基本上决定「忽略你上过哪所大学的信号。」
“We have found community college, the small Midwestern engineering school, like because we’re assessing our own way, we basically ignore the signal of where you went to university.” 我们发现社区学院、中西部小型工程学院,因为我们是以自己的方式进行评估,所以我们基本上忽略了你上过哪所大学的信号。
一些想法
最能揭示问题的时刻是,Sarah Guo 问 Baszucki 他对 AI 的看法,而其他人尚未相信。他的回答:他实际上是怀疑论者。更多的人相信的比他多。他从「时间和复合的力量」而不是突破性时刻来思考。他指出,微软 Excel 在 40 年里几乎没有变化,这证明有些东西就是会一直存在。
这是理解 Roblox 的 AI 策略的一个有用的视角。他们没有追逐炒作周期。他们正在使用 AI 来加速他们在 20 年前做出的赌注,这个赌注已经足够雄心勃勃了。全息甲板的规格已经稳定了 20 年。AI 只是让时间表更合理。
一些值得思考的事情:
- 「实时梦境」类别是真正新颖的框架。从多人通信到孤独的 AI 生成世界的范围为产品类别创造了空间,没有人命名过
- 每月 130 亿小时的 3D 向量互动数据可能是 AI 中最被低估的训练数据集。它比视频更丰富,可以从任何角度导航,并且可以大规模捕获空间行为
- 招聘洞察值得更多关注。如果一家处理 60,000 名候选人的公司发现大学声誉与工作绩效之间没有任何相关性,那么这对于整个科技行业来说都是一个有意义的数据点
- Baszucki 的「3 倍/10 倍」规划框架可能是如何平衡运营执行与长期愿景的最清晰的阐述