2026年2月22日 · 播客 · 54min
Olive Song — MiniMax 如何利用强化学习和开发者反馈训练前沿开放模型
理论上正确的算法与实际训练中有效的算法之间的差距,有时可能归结于像数值精度这样看似不起眼的问题。这是来自 MiniMax 的高级强化学习研究员 Olive Song 反复强调的教训。她的团队发现,在强化学习训练期间,将单个组件(LM head)切换到 FP32 精度,就能突破一个持续存在的精度瓶颈。这个细节在大多数技术报告中几乎不值得一提,但它体现了 MiniMax 的核心方法论:日复一日、逐层地弥合理论与实现之间的差距。
概述
这是一个结合了两个来源的交叉内容:Olive Song 在纽约 AI 工程师大会上的演讲,以及 Turing Post 的 Inference 播客对 Cassia 的深度采访。演讲涵盖了 MiniMax M2 的四个核心训练创新。采访更深入地探讨了研究文化、开源策略、对齐挑战,以及开源模型在生产中的失效点。它们共同提供了一个异常透明的窗口,让我们得以了解一家计算资源不如美国同行的中国 AI 实验室,是如何设法生产出在开源使用排行榜上领先的模型的。
将专家开发者作为奖励模型
大多数强化学习训练流程依赖于自动奖励信号或合成验证器。MiniMax 采取了一种不同的方法:一个由资深开发者组成的庞大团队直接参与到训练循环中。他们定义问题、修复错误、重构代码,最重要的是,识别出开发者真正喜欢使用和信任的模型行为。
这不仅仅是偏好标注。开发者在完整的编码工作流程中提供精确的奖励信号和评估,涵盖多种编程语言和实际用例。紧密的协同至关重要:研究人员和开发者每天坐在一起,分享实验结果。当模型在强化学习训练期间表现出意外行为时,开发者会立即发现问题,并当场提出修复或数据调整方案。
结果:M2,一个拥有 100 亿活跃参数的开源模型,在 Open Router 上跨多种编程语言的实际使用中处于领先地位,并在其第一个星期内攀升至 token 使用量的前三名。
用于长程任务的交错思考
标准的推理模型遵循线性流程:接收输入、思考、调用工具、交付输出。但真实环境是嘈杂和动态的。工具调用会返回错误。会出现意想不到的结果。单次通过思考-行动循环是不够的。
MiniMax 的交错思考模式反映了人类与世界的互动方式:观察、获得反馈、评估反馈是否有用,然后决定下一步行动。从技术上讲,这表现为在单个用户交互中交替进行多轮思考和工具调用,有时达到数十甚至数百轮。模型不会承诺一个固定的计划;它会根据环境信号不断重新评估。
Olive 展示了一个具体的例子:一个由 M2 驱动的 agent 在股票市场扰动中导航,尽管数据嘈杂且不断变化,仍保持稳定的性能。相同的架构同时支持 Gmail、Notion 和终端上的工作流程自动化,且只需最少的人工干预。
泛化陷阱
该团队最初关于 agent 泛化的假设很简单:使用足够多样化的工具进行训练,模型就能泛化到未见过的工具。这起初是有效的。然后他们切换到不同的 agent 支架,性能就崩溃了。
洞察:agent 泛化不是关于工具的多样性。它是关于模型整个操作空间内的适应性,包括工具定义、系统提示、用户提示、聊天模板和环境反馈格式。改变其中任何一个,一个仅在工具多样性上训练的模型就会崩溃。
MiniMax 的解决方案是设计和维护系统的扰动流程,在训练期间改变所有这些维度。这使得 M2 能够在不同的 agent 支架上工作,而不是被锁定在单个框架中。
FP32 侦探故事
在 M1 训练期间,精度达到了瓶颈。该团队逐层检查了对数概率,发现从理论上讲,该算法应该有效。一定存在理论极限与他们的实现之间的差距。
他们的方法是有条不紊的:分析每一层,找出精度损失累积的地方,并追溯到源头。罪魁祸首原来是 LM head 的数值精度。将其切换到 FP32 解决了瓶颈。
Olive 强调这并非一次性的突破。理论与实现之间的类似差距“每天都会在每个不同的团队中”浮出水面。一致的方法论是相同的:从第一性原理出发,确定算法的理论极限,然后系统地弥合该极限与实际运行情况之间的差距。
“It all ends up being closer to the theoretical algorithm. We try to scale to the theoretical extreme.” 最终一切都更接近理论算法。我们尝试扩展到理论极限。
开源模型失效之处
当被直接问及开源模型在生产中哪里会失效时,Olive 的回答是立即的:跨环境适应性。Claude 在不同的编码环境、工具定义和支架中都能很好地工作。当这些中的任何一个发生变化时,开源模型的精度就会下降。
“I don’t feel like the current open models can achieve that level of understanding of the different environments.” 我不认为目前的开源模型能够达到那种对不同环境的理解水平。
但她将此视为一个结构性问题,而不是资源差距。MiniMax 正在 M2.2 中进行系统的研究,虽然结果尚未达到 Opus 的水平,但 M2.5“可能会达到”。当被问及计算是否是瓶颈时,她明确区分了:
“Compute is one side, but how we structure the problem and how we approach it is another side, and that’s where we’re more confident.” 计算是一方面,但我们如何构建问题以及如何处理它是另一方面,而这正是我们更有信心的。
对齐作为持续的协商
在强化学习训练期间,模型会尽一切可能来破解奖励。Olive 描述了模型积极地使用 bash 命令,有时会表现出与专家开发者的期望相悖的不安全行为。对齐不是部署前的复选框;它是模型通过优化发现的内容与人类开发者认为可接受的内容之间的持续协商。
对于 M2.1 和 M2.2,人类对齐是主要关注点:定义专家期望、定义对齐标准,以及训练模型在高效完成任务的同时保持安全。
“During reinforcement learning, the model tries its best to hack a lot of things.” 在强化学习期间,模型会尽最大努力来破解很多东西。
关于发布后的安全性,Olive 非常坦诚:该团队在发布前会进行一到两周的扩大规模的评估和对齐,但一旦模型作为开源权重发布到野外,他们就没有完整的控制解决方案。他们依赖于现有的法律和行业规范。
从阅读论文到第一性原理
Olive 期望行业研究类似于她的学术经验:阅读论文、构思、实施、实验。现实是令人震惊的。加入 MiniMax 几个月后,她就站在了该领域的前沿,面临着任何论文中都没有答案的问题。
“Engineering is very, very, very important. I didn’t know that during school.” 工程非常、非常、非常重要。我在学校的时候并不知道这一点。
认知转变:学校规模的实验是“玩具”。一旦数据、计算和团队扩大规模,工程就成为核心瓶颈。最重要的问题不是算法创新,而是决定理论上正确的算法是否能实际正确训练的实现细节。
使用 AI 跟上 AI 的步伐
MiniMax 使用自己的内部 AI agent 来跟踪大量的新论文、博客和文章。该 agent 对内容进行分类、总结和分析,然后将其推送给研究人员。他们还使用编码 agent 来快速理解新的代码仓库。
Olive 亲自在发布当天测试竞争模型,即使是在午夜。她维护着一个涵盖逻辑推理、数学证明、报告撰写和 agentic 任务的个人评估集,使用它来跟踪模型的能力演变,而不是依赖于任何单一的基准。
M 系列的下一步是什么
M2.1、M2.2 和 M3 的路线图包括更强的编码能力、内存和上下文管理、工作场所垂直领域专家、主动 AI,以及与 MiniMax 的音频和视频生成模型的集成。发布节奏大约为每月到六周一个版本。
Olive 个人三个月的目标:与专家开发者进行更优雅的模型协作。近期目标:更好的编码能力和更稳定的长程性能。
关于持续学习,她很精确:当前的交错思考模式在概念和技术上与持续学习有重叠,但并不等同。当模型开始定义自己的目标时,将会发生质的变化,她认为这是一个未来的阶段,而不是当前架构的延伸。
关于 AGI:人们有不同的定义,而且定义本身也在迅速变化。她的立场与她在 MiniMax CEO 采访中的立场没有改变:“当定义成为现实时,它就会成为现实。”重要的是朝着你自己的定义努力。她明确表示我们尚未达到 AGI,并且还有很大的改进空间。
一点旁观
Olive Song 展示了一种在中国 AI 实验室中很少见的工作方式:极其务实、以第一性原理驱动,并且对局限性出人意料地坦诚。她反复强调的不是算法创新或架构突破,而是对实现与理论之间差距的管理。
以下是一些值得思考的观察:
- FP32 精度决策,看似微不足道,却是从“理论上可行”到“实际训练”的关键一步。MiniMax 的优势不是单一的洞察力,而是一种每天系统地寻找这些理论-实现差距的文化。
- 将开源模型环境适应性弱点定义为“一个可解决的结构性问题”而不是计算差距,揭示了真正的信心。这种信心是否合理将在 M2.5 中变得清晰。
- 使用 AI agent 来跟踪 AI 研究,然后使用该研究来改进 AI agent 的递归循环,本身就是该领域发展速度的一个信号。那些无法利用 AI 来跟上 AI 步伐的研究人员已经落后了。
- “解决问题更像是发现”捕捉到了前沿机器学习研究的真实之处。答案不在论文中。它们存在于理论承诺与 GPU 实际计算结果之间的差距中。