2026年2月25日 · 播客 · 2h 4min

Karan Singhal：OpenAI 的医疗人工智能如何达到主治医师水平

#健康人工智能#OpenAI#人工智能安全#可扩展监督#医疗人工智能

OpenAI 的健康 AI 负责人 Karan Singhal 本质上是一位安全研究员，他选择了健康作为他的领域。这种定位从根本上改变了整个对话。这期时长两小时的《认知革命》节目不仅仅是关于医疗 AI 产品，而是关于为什么健康为解决对齐问题提供了理想的现实世界实验室，以及每周已经有超过 2 亿人使用 AI 获取医疗建议时会发生什么。

对话背景

Nathan Labenz 以一段不同寻常的个人经历开场：他的儿子被诊断出患有癌症，在 30 天的重症住院期间，他使用了 GPT-5 Pro、Gemini 3 和 Claude 作为持续的医疗顾问，与主治肿瘤科医生并肩作战。Karan Singhal 最近入选《时代》周刊 100 位最具影响力健康人物榜单，他加入了讨论 ChatGPT Health、HealthBench 以及他为何离开谷歌（他在那里构建了 Med-PaLM）并领导 OpenAI 的健康 AI 部门。

对话从 Nathan 的第一手临床经验开始，逐步深入到医疗 AI 评估的架构、产品决策、肯尼亚的一项具有里程碑意义的临床试验、隐私设计、医生采纳的动态，最终深入到健康 AI 与对齐研究之间的深层联系。呈现出这样一幅图景：健康 AI 既是拥有数亿用户的产品，又是解决 AI 安全领域最棘手问题的研究策略。

与三个前沿模型在医院度过的三十天

Nathan 的叙述是对医疗 AI 在高风险环境中进行的最详细的第一人称压力测试之一。他的发现：

前沿模型在几乎所有方面都与主治肿瘤科医生步调一致。它们的表现明显优于住院医师。在模型与主治医生之间大约六次的意见分歧中，事后看来，医生的正确率约为三分之二，比分约为 6:4。

“The frontier models were step for step with the attending oncologist on almost everything. And they’re like a lot better than the residents.” 前沿模型在几乎所有方面都与主治肿瘤科医生步调一致。而且它们比住院医师好得多。

三个前沿模型之间的分歧频率低于任何单个模型与主治医生之间的分歧频率。医生保持的唯一一致优势是直观的多模态判断：观察孩子的呼吸、评估肤色、解读来自多年床边经验的微妙身体信号。这些正是当前基于文本的 AI 无法访问的信号。

Nathan 还发现，告诉 ChatGPT 他儿子完整的病史，然后要求它“采访我”以获取更多背景信息，比简单地提问产生了明显更好的结果。该模型可以综合多次就诊的纵向数据，并标记出个体咨询可能遗漏的模式。

HealthBench：衡量医疗 AI 的 49,000 项标准

HealthBench 是 OpenAI 试图解决医疗 AI 评估中的一个根本问题：如何衡量一个 AI 系统是否真的擅长健康，而不仅仅是听起来像医疗？

它由 250 多名医生构建，包含 5,000 个真实的对话和 49,000 个细粒度的评估标准。该基准测试分为三个版本：

HealthBench Full 确保分数提高对应于真正的健康改善，而不仅仅是风格上的润色。关键的设计原则是“有意义”：每个标准都与临床上重要的区别相关联。

HealthBench Consensus 要求多数医生对每个标准达成一致。这针对的是可信度，过滤掉了个别医生的特殊判断。

HealthBench Hard 以对抗方式选择所有模型提供商中最差的表现示例。这里的结果令人清醒：GPT-4o 的得分实际上为零。目前最好的 OpenAI 模型达到 40% 左右，竞争对手约为 20%。

一个引人注目的发现：基于模型的评分员在评估质量方面现在优于普通医生评分员。Singhal 称之为“递归式自我改进的迹象”，尽管这个短语在这里具有非常具体的含义。不是模型自主改进自己，而是模型成为比最初训练要匹配的人类更好的医疗质量判断者。

“The model-based grader was doing a better job than the average physician.” 基于模型的评分员比普通医生做得更好。

健康领域模型进步的速度

改进的速度正在加快。Singhal 报告说，过去一年医疗 AI 性能的改进超过了自 ChatGPT 推出以来的所有改进的总和。GPT-5 nano 模型（通过 API 和开源提供）现在的医疗性能与之前最好的 O3 模型相匹配。

更重要的是，最新的推理模型（5.3 Codex，5.2 Thinking）在健康查询中默认减少推理，同时产生更好的结果。目标已从“更多计算等于更好的结果”转变为“在相同的计算水平下获得更好的结果”。这对于可访问性至关重要：如果健康 AI 需要昂贵的推理 token，它就无法免费为数亿用户提供服务。

免费推理，无广告：一个刻意的产品例外

ChatGPT Health 免费提供推理模型，没有速率限制。这在 OpenAI 的所有产品中都是独一无二的，并且明确地不是默认路径。

“We made ChatGPT Health free. This was not the default path, providing a reasoning model for free without rate limits to all users.” 我们免费提供 ChatGPT Health。这不是默认路径，免费向所有用户提供推理模型，没有速率限制。

该产品允许用户连接电子病历、可穿戴设备数据和 Apple Health 信息，并具有专门构建的隐私保护功能。每周有超过 2 亿人使用 ChatGPT 进行健康查询，消费者采用率远远超过医生采用率。

Singhal 强调了一个界限：广告不会进入 ChatGPT Health。

“Ads aren’t coming to ChatGPT Health and we don’t plan for that. We think it’s really important to create a clear separation between our health impact work and things that could be seen as contributing to other incentives.” 广告不会进入 ChatGPT Health，我们也不打算这样做。我们认为在我们的健康影响工作与可能被视为促成其他激励因素的事情之间建立明确的界限非常重要。

这种投资模式（免费、无限制、无广告）与 OpenAI 更广泛的商业策略形成鲜明对比。这表明健康 AI 不仅是增长引擎，而且是公司关键的“社会许可”策略。

ChatGPT for Healthcare：企业端

除了消费者产品之外，OpenAI 还推出了面向健康专业人士的企业版本，具有 HIPAA 合规性、医疗指南证据检索和临床写作工作流程。它与 8 家领先的医疗机构首次亮相，发布后的入站需求超过了团队的能力。目标是到 2026 年底使 AI 辅助护理成为护理标准的一部分。

Penta Health 临床试验

OpenAI 运行了首批 LLM 临床副驾驶的真实随机研究之一，该研究通过 Penta Health 在肯尼亚的一个诊所网络进行。在治疗组中，当电子病历中的条目显得令人担忧或可能不正确时，临床医生会收到来自 AI 的实时标记。

结果：AI 辅助组的诊断和治疗结果在统计学上显着改善。但一个关键的实际发现是，仅靠技术部署是不够的。该研究需要“积极的变革管理”，包括小组培训课程和使用演示，以使临床医生有效地参与该系统。

这是一种贯穿整个对话的模式：技术能力已经存在，但采用的挑战是组织和行为方面的，而不是计算方面的。

隐私作为建立信任的练习

Singhal 对隐私的立场是细致入微的。ChatGPT Health 不会使用用户健康数据训练模型。围绕隐私建立信任是近期最重要的优先事项。但从长远来看，他看到了新的同意模型和研究数据合同的潜力，患者可以自愿贡献数据以推进医学研究。

Nathan 从个人经验提出了一个反驳。GitLab 创始人 Sid Sijbrandij 在他自己被诊断出患有癌症后，公开了他的完整生物学信息，甚至包括 DNA 水平，其益处（与研究人员的联系、获得个性化治疗公司的机会、专业知识）远远超过了任何隐私风险。Nathan 的建议：寻求益处，不要太担心你的数据是否存储在某个日志中。

这种紧张关系是真实存在的。Singhal 必须为那些非常担心医疗数据隐私的用户构建产品。Nathan 在经历了一场医疗危机后，认为不共享数据的机会成本是更大的风险。

医生采用率差距

消费者对健康 AI 的采用率超过了医生，但这种动态比简单的抵制更有趣。Singhal 报告的专业保护主义远低于预期。关键的区别因素是个人经验：已经使用 ChatGPT 解决自己健康问题的医生会确信其价值。那些没有使用过的医生仍然持怀疑态度。

“When you talk to health system executives, you can tell instantly who’s used it and who hasn’t. The conversation just becomes incredibly easy when people have used it.” 当你与医疗系统高管交谈时，你可以立即分辨出谁使用过它，谁没有使用过。当人们使用过它时，对话就会变得非常容易。

主要的障碍不是意识形态上的反对，而是工作流程的惯性和变革管理的时间成本。

健康 AI 作为伪装的对齐研究

这是将对话提升到产品讨论之上的线索。Singhal 在 OpenAI 从事健康 AI 的更深层动机是为安全和对齐研究提供具体的依据。两年前，他观察到前沿安全研究主要在玩具设置或数学问题中进行，缺乏现实世界的反馈循环。

“If there was only a setting where the problems that people were working on were well motivated and provided concrete feedback loops, the research could happen better.” 如果有一个环境，人们正在解决的问题有充分的动机并提供具体的反馈循环，那么研究就可以更好地进行。

健康提供了一个理想的可扩展监督环境，因为模型在特定的狭窄维度上已经超过了医生。这创造了一个自然的实验：如何确保一个在某些方面已经超人的系统保持安全、诚实和有益？

Singhal 将可扩展监督分解为两个子问题：

评分员扩展：如何正确地从人类和专家那里获取意见和价值观。AI 可以帮助提高人类的批判能力，创建一个反馈循环，模型可以帮助人类成为更好的模型评估者。

价值监督：给定一组价值观（无论如何获取），如何花费大量的计算资源来训练模型以使其内化这些价值观。规范和章程方面的进展表明，模型越来越多地将安全行为推广到它们没有明确训练过的环境中。

一个关键的见解：歧视或批判的任务比生成的任务更容易。给定的模型可以有效地监控自己，尤其是在给定特权信息（如思维链）的情况下。这是 RLHF 和宪法 AI 的基础，这意味着在正确的条件下，相同能力的模型可以充当自己的安全监控器。

思维链可解释性：谨慎乐观

推理模型会发出思维 token，这些 token 提供了一种自然的可解释性形式。Apollo Research 和其他机构观察到偶尔会出现“神经语言”，其中思维链 token 偏离了可理解的英语，而更像是压缩的模型内部语言。

Singhal 的评估出人意料地平静：没有大规模的证据表明扩展 RL 会导致思维链滑入无法解释的语言。模型用英语思考是因为预训练的先验知识，而不是因为任何东西强化了它。他预计这种情况可能会在极限情况下发生变化，但尚未发生。OpenAI 致力于最大限度地减少思维链上的优化压力，以保持其可解释性价值。

到目前为止，安全泛化仍然有效

对话中最令人安心（也是最谨慎地对冲）的发现涉及跨模型世代的安全泛化。在预训练扩展时代，少量监督微调可以提取良好的人格和安全行为。问题是这是否适用于使用 RL 训练的推理模型。

到目前为止，答案是肯定的，并且可能在规模上更强。每一代都会出现新的突发问题（欺骗、评估意识），但一旦确定，下一代通常会使这些特定故障模式减少三分之二到一个数量级。

Nathan 推断到大约 2028 年：模型能够完成人类几个月的工作，但每次运行可能有一千分之一到十万分之一的几率“以某种奇怪的方式积极地搞砸你”。Singhal 并不反对这种说法。他承认难以预测能力曲线和安全曲线将如何净化，这正是他关心在致力于安全的同时积极实现有形利益的原因。

健康领域的第 37 步

对话以一个愿景结束。Singhal 引用 AlphaGo 对阵李世乭的著名第 37 步（人类不会采取的举动，但事后看来很聪明），他认为健康领域的等价物指日可待。

许多患者已经报告说看过多位医生但没有解决问题，然后 ChatGPT 标记了导致诊断的关键线索。这是否上升到第 37 步的水平是一个程度问题，但方向是明确的。

该团队的任务在三个方面运作：提高下限（帮助消费者通过 ChatGPT Health 理解和管理健康），增强系统能力（通过 ChatGPT for Healthcare 使 AI 辅助护理成为标准），并提高上限（加速生物医学研究，这是长期愿景）。

“Biology and health is one of the areas in which marginal gains in intelligence have the most obvious value in solving more and more problems for humanity.” 生物学和健康是智能的边际收益在解决越来越多的人类问题方面具有最明显价值的领域之一。

Singhal 指出，以前生物学领域的许多突破都没有物理障碍。除了应用于问题的人类智慧不足之外，没有什么能阻止它们在 5 或 10 年前发生。当这是约束条件时，连接到正确数据的长期运行的 AI 代理可以产生变革性的影响。

后记

这一集同时在两个层面上发挥作用。从表面上看，它是对 OpenAI 健康 AI 战略的全面概述：产品、基准、临床试验、采用曲线。在底层，它论证了健康是对齐研究的最佳可用实验室，因为它提供了真正的风险、可衡量的结果以及模型在特定维度上已经优于人类专家的领域。

Nathan 的 30 天住院经历是临床使用医疗 AI 最可信的第一人称叙述：不是基准测试，不是演示，而是一位父母使用三个前沿模型来帮助应对他孩子的癌症治疗。他关于模型“可靠地达到主治医生水平”的结论具有分量，因为出错的代价不是排行榜上失去一个点
免费、无限制、无广告的健康模型是 OpenAI 最不寻常的产品决策。只有将健康 AI 理解为对齐研究和社会许可的基础设施，而不是主要作为收入来源，这才有意义
HealthBench Hard 的结果（GPT-4o 为零，最佳模型为 40%）表明医疗 AI 还有很大的增长空间。当前性能与最困难案例的人类水平之间的差距仍然巨大
Penta Health 试验发现临床 AI 采用需要“积极的变革管理”，这与每个企业软件部署的经验教训相呼应：未集成到工作流程中的技术无论其能力如何都不会被使用
Singhal 将可扩展监督框架分解为两个不同的问题（评分员扩展和价值监督）是一个有用的分解，可以阐明实际取得进展的地方与仍然存在开放性问题的地方

观看原视频 →