2026年1月29日 · 播客 · 35min
中国 AI 全明星对话:来自前沿的坦诚自省
中国顶尖的 AI 领袖齐聚北京 AGI-Next 峰会,做了一件不同寻常的事情:他们坦诚地讲述了自己所处的境地。
这次峰会的深度剖析
这是一期深度播客,分析了由清华大学和智谱 AI 联合主办的 AGI-Next 峰会(2026 年 1 月 10 日)。峰会公开了一场异常坦诚的内部战略会议,与会者包括智谱 AI 创始人唐杰、阿里巴巴 Qwen 的林俊旸、腾讯的姚顺宇(在硅谷有深厚渊源)以及张钹院士。播客主持人剖析了对话中的四个核心主题:中美差距的真实状况、对规模化之外的下一个范式的探索、市场战略的分歧,以及中国参与竞争所需的文化转变。
差距正在扩大,而非缩小
主流观点认为,中国模型已经迅速缩小了与美国的技术差距。唐杰首先打破了这种看法。他的核心论点是:中国的前沿公司在开源领域发力,发布权重和指标,这让他们在基准测试中表现良好,正如他所说,“让我们自我感觉良好”。与此同时,来自 OpenAI、Anthropic 和 DeepMind 的真正的美国前沿技术仍然是闭源和专有的。
“It’s like running a race where you can only see the shadows of your competitor, and those shadows just keep stretching further and further ahead.” 这就像参加一场比赛,你只能看到竞争对手的影子,而这些影子却不断地向前延伸。
这意味着一个严峻的现实:如果美国实验室在封闭系统中取得了非线性的突破,那么即使中国模型在可见的基准测试中有所改进,真正的差距也在不断扩大。这种比较从根本上来说是不对称的。
算力鸿沟及其带来的影响
林俊旸用具体的数字说明了这种差距:美国在尖端 AI 研究方面的算力可能比中国高出一到两个数量级。不是 2 倍或 3 倍,而是 10 倍到 100 倍。
这不仅仅意味着更大的模型,还意味着试错的自由。美国公司,尤其是 OpenAI,将大量的算力分配给下一代研究。正如林俊旸所说,他们可以训练十个完全无用的模型,只是为了找到第十一个能够改变一切的模型。中国实验室负担不起这样的开销。他们 80-90% 的算力都用于满足交付需求:为客户重新训练、为商业需求进行微调、维持服务的可靠性。
这导致了一种被迫的战略分歧。中国追求他们所谓的“算法-基础设施协同优化”:专门为国产芯片的限制而设计的模型,针对特定的中国制造的加速器优化内存访问模式。这产生了巨大的效率,但也可能将他们锁定在性能较低的硬件生态系统中。这是一种战略上的必需,而不是战略选择。
文化问题比芯片问题更难解决
姚顺宇指出了一个比任何硬件短缺都更难解决的制约因素:系统性地缺乏承担突破性风险的意愿。
中国研究人员倾向于更安全的问题,比如预训练优化、现有架构改进。有一条已被证明的成功之路:一旦某种方法被西方验证,中国团队可以更快地复制并经常优化它。但是,对于像长期记忆架构或持续学习这样有 90% 可能性完全失败的领域,这种冒险的尝试在文化和经济上都缺乏吸引力。
林俊旸用电动汽车做了一个生动的类比:富有的美国投资者支持早期的电动汽车,尽管它们“车顶漏水,甚至发生致命事故”。在中国目前的投资文化中,不存在这种程度的风险承受能力,即资本愿意承受灾难性的失败而不放弃。他认为年轻一代正在慢慢改变,但资本结构尚未倾向于高风险的投资。
这种反馈循环是自我强化的:交付需求消耗算力,这阻碍了有风险的研究,从而将人才引导到已被证明的优化路径上,这又加强了对短期成功的偏好。
唐杰的五层认知框架
唐杰提出了一个雄心勃勃的 AI 发展路线图,以人类认知为模型:
第一层:原生多模态融合。 2025 年是“适应”阶段,笨拙地将视觉和音频嫁接到文本模型上。2026 年需要在基础训练层面实现感知的原生统一,使 AI 将世界感知为一个连贯的整体,而不是在单独的编码器之间进行翻译。
第二层:超越上下文窗口的记忆。 目前的模型只有两种记忆类型:一个大的上下文窗口(短期草稿纸)和静态参数(长期但冻结)。唐杰提出了第四个记忆层:“记录知识”,一个将工作理解转化为保存的、系统的知识的内部系统。AI 成为知识的积累者,而不仅仅是一个搜索引擎。
第三层:反思和自我意识。 反思(批判自己的输出)已经部分发挥作用。自我意识是巨大的、未经证实的飞跃。唐杰表示,他“在某种程度上支持”模型可以实现意识,并且即使风险很高,追求这项研究在科学上也是有效的。
第四层:扩展未知。 不是向 transformers 投入更多的数据(扩展已知),而是发现全新的范式、注意力机制和架构。这是美国实验室目前主导的高风险探索。
第五层:智能效率。 中国战略的实用核心。由于扩展达到了收益递减(预训练已经获得了 70-80% 的潜在收益,RLHF 可能获得了剩余收益的 40-50%),因此重要的指标是:每花费一美元能获得多少智能?
Agent 的飞跃和 2B 与 2C 的分野
姚顺宇对消费者与企业之间的经济分析尤为精辟。对于消费者来说,最强大的模型的边际效用是最小的。起草电子邮件、总结文章:去年的模型可以很好地处理 90% 的这些任务。普通用户感觉不到从 GPT-4 到 GPT-5 的飞跃。
在企业中,这种动态完全颠倒。他的例子:一位年薪 20 万美元的软件工程师,其时间成本为每小时 100 美元。每月 200 美元的 A 模型可以解决 9/10 的复杂任务。每月 20 美元的 B 模型可以解决 6/10 的复杂任务。180 美元的价格差异无关紧要。重要的是工程师每周浪费 3-5 小时来监控、纠正和修复较弱模型的输出。监控弱模型的成本是最大的因素。
关于 Agent,大家的共识是,2025 年水平的 Agent 可以基于 3-5 小时的持续推理来自动化 1-2 天的人工工作。到 2026 年底,他们预计 Agent 可以处理 1-2 周的工作,从单一任务转向整个多阶段工作流程。林俊旸采取了积极的立场:“模型就是 Agent,Agent 就是产品。” 长周期、自我进化的 Agent 所需的复杂性必须融入到核心模型中。
唐杰补充了外部 Agent 初创公司的生存条件:他们必须解决既有价值又无法通过单个提示解决的问题。否则,基础模型提供商只需构建该功能即可。
姚顺宇引用 Palantir 作为将通用模型连接到企业需求的战略模板,特别是通过本体论:结构化的知识图谱,用于教导通用 LLM 特定客户的内部语言和数据。
20% 的几率,而且这还是乐观的
当被问及中国公司在 3-5 年内成为世界上最先进的 AI 公司的可能性时,答案发人深省。
姚顺宇(乐观主义者):“非常高”,他引用了中国在基本路径确定后迅速复制、优化和扩展的历史能力。太阳能电池板、电动汽车、制造执行。
林俊旸(现实主义者):20%。他小心翼翼地补充说,即使是 20% 用他自己的话说也是“一个非常乐观的百分比”。
这种分歧本身就是洞察力。中国前进的道路出现了三个条件:解决硬件限制(光刻、足够的算力用于有风险的研究)、发展 2B 市场(无论是在国内还是国际上),以及从根本上改变研究文化,使其摆脱安全问题和对排行榜的痴迷。
姚顺宇强调了 DeepSeek 的方法和 Claude 作为所需文化转变的典范:优化“真正对人们有效的东西”,而不是基准分数。Claude 通常不会登上排行榜榜首,但其在漫长而复杂的任务中的实际智能是毋庸置疑的。
林俊旸对 2021 年错失的机会表示遗憾,当时阿里巴巴的模型团队和芯片团队未能协调他们的设计周期。由于获得外国技术的渠道有限,中国现在有了一个被迫的激励机制,可以从头开始共同设计下一代模型和芯片,这是一个潜在的跨越式发展的机会。
张钹的哲学挑衅
张钹院士退后一步,不再关注竞争压力,而是挑战了对齐研究的基本假设。他的问题是:机器必须与人类对齐吗?
他的回答简单而具有破坏性。人类的行为通常是贪婪和欺骗性的。如果机器与人类对齐,它们可能不可避免地会继承我们的缺陷。他认为,人类“显然不是未来智能的最高标准”。
这重新定义了对齐,从一个控制问题变成了一个有抱负的伦理问题:机器应该遵守一些更高、更理性的道德框架,而不仅仅是服从人类的价值观。他目前的当务之急是:在试图管理机器之前,先管理人类(研究人员和用户)。
张钹还改变了他长期以来的学术建议。他以前不鼓励他最好的学生创业,但他现在认为最有能力的人应该进入这个领域,因为 AI 提升了使命。AI 创业者必须将知识、伦理和应用转化为广泛造福人类的工具,使 AI 成为像水或电一样的通用技术。
结束语
这次对话的最大价值在于它的诚实。这些不是局外人在猜测。这些人正在建设中国的前沿,他们对自己所处的位置的批判比大多数西方分析师都要严厉。
- 差距是真实的、结构性的和自我强化的。算力稀缺迫使人们进行以交付为导向的分配,这阻碍了可能缩小差距的有风险的研究。阿里巴巴 Qwen 负责人坦率地谈到 20% 的几率,这令人震惊。
- 文化问题可能比芯片问题更重要。风险规避型资本、排行榜驱动型研究和交付压力之间的反馈循环比任何出口管制都更难打破。
- 智能效率作为一种指标,源于约束,但它可能比蛮力扩展更持久。如果扩展真的达到收益递减,那么被迫在效率方面进行创新的实验室最终可能会处于更有利的位置。
- 张钹的对齐挑衅值得认真对待:如果人类不是最高的伦理标准,那么整个对齐辩论都需要重新思考。这是来自一个意想不到的来源的真正原创的贡献。
- Palantir 作为模板的洞察力揭示了中国实验室如何看待 2B 机会:不是构建垂直产品,而是在通用智能和特定领域需求之间创建本体论桥梁。