跳至正文
← 返回首页

2026年2月24日 · 播客 · 38min

来自 AI 开发者们的残酷真相

#AI泡沫#AI投资#AI 编码#视频生成#数据标注

以下是 Weights & Biases 的“Gradient Dissent 精选”,汇集了五场精彩对话,每一场都直击要害。本期节目没有统一的主题,而是由五位在 AI 堆栈不同层级工作的构建者,各自发表了一些他们的公关团队可能不希望他们说的话。Mike Cannon-Brookes 谈到为什么 AI 不会取代人类,但使用 AI 的人会取代你。David Cahn 谈到 AI 商业案例中 6000 亿美元的缺口。Cristóbal Valenzuela 谈到为什么语言模型从根本上受到限制。Martin Shkreli 谈到 AI 交易和即将到来的泡沫。Edwin Chen 谈到为什么训练数据从 5 秒的任务变成了耗时数周的问题。

力量倍增器,而非替代品

Mike Cannon-Brookes(Atlassian 联合 CEO)提出了一个在企业软件中思考 AI 的实用框架。他的核心观点是:AI 是人类创造力的力量倍增器,而不是替代品。

“I’m not worried about being replaced by AI. I’m worried about being replaced by somebody who’s really good at using AI.” 我不担心被 AI 取代。我担心被那些非常擅长使用 AI 的人取代。

技术版本:你需要一个不断运行的人工智能循环。在 Atlassian,他们用一个具体的案例证明了这一点。一项内部服务更改了其 API 形状和 URL。需要更新 500 多个存储库,有时是配置,有时是实际代码。他们使用了编码代理 (Rodev) 结合他们的“团队合作图”(一个连接文档、拉取请求、Salesforce 记录以及数百个 SaaS 应用程序的 1000 亿+ 对象图)。

流程:用 JavaScript 和 Java 编写几个迁移示例,提交它们,让了解图的代理找到每个需要相同处理的其他位置。但人类仍然参与其中。Cannon-Brookes 明确警告不要使用 AI 代码审查 AI 编写的代码,而没有人为导向:“如果它偏离几个百分点,然后你将其乘以一千个循环,我们就麻烦了。”

他的比喻:编码代理处理“园艺”(修剪草坪、拔除杂草、施肥),这使人类可以回到“景观设计”(决定在哪里放置瀑布、种植大树)。日常维护是 AI 在现有运营业务中提供直接、可衡量价值的地方。

Atlassian 的“团队合作图”还支持 Cannon-Brookes 称之为世界上最大的企业搜索引擎。自 2019 年以来构建,它将工作流应用程序与外部 SaaS 工具连接起来。三年前,当 LLM 出现时,该图成为“组织记忆”,因为模型现在可以理解文档的内容,而不仅仅是它们的链接。一个流行的功能:在 Confluence 或 Jira 中选择任何单词,然后询问“定义这个单词”。人们不会查找“进展”或“颠覆”。他们会查找内部代码词,如“仙尘”或“炼金术士”。

AI 的 6000 亿美元问题

David Cahn(红杉资本)回顾了他广为流传的关于 AI 收入缺口的粗略计算。计算如下:

  1. 2024 年,英伟达的 GPU 运行收入达到约 1500 亿美元
  2. 对于 GPU 上的每一美元,另一美元用于数据中心、能源、电力 → 总基础设施支出 3000 亿美元
  3. 使用该基础设施的初创公司需要约 50% 的毛利率 → 他们需要为每 1 美元的 AI 成本产生 2 美元的收入
  4. 所需总收入:每年 6000 亿美元,仅用于证明一年的投资是合理的
  5. 这不是一次性的数字。如果 2025 年带来另外 1500 亿美元的 GPU 支出,则所需收入将攀升至 1.2 万亿美元。债务会累积。

实际收入在哪里?OpenAI 仍然占据最大份额。大型科技公司尚未完全释放 AI 收入(谷歌刚刚开始通过 Gmail 强制购买 AI 产品)。所需收入与实际收入之间的差距仍然约为 5000 亿美元。

“囚徒困境”解释了为什么支出仍在继续。云是一个约 5000 亿美元的业务。七家公司占标准普尔 500 指数的 33%。微软每个季度在数据中心上花费约 200 亿美元,谷歌约 130 亿美元。每家公司都害怕在 AI 竞赛中落后,并失去其在云寡头垄断中的地位。为 AI 基础设施提供资金的资金来自过去十年建立的现有云利润。即使收入尚未实现,也没有人能停止支出。

Cahn 的更新:支出正在稳定。微软和谷歌已经趋于平稳。亚马逊可能会稳定在 20 多美元(类似于微软),Meta 在 10 多美元(类似于谷歌)。因此,“AI 的 6000 亿美元问题”可能不会变成“AI 的万亿美元问题”。投资方面正在趋于平缓。收入方面仍需赶上。

超越语言,走向现实

Cristóbal Valenzuela(Runway 联合创始人/CEO)解决了语言模型的一个根本限制:

“One of the bottlenecks of language models is that language is always constrained by what language actually is, which is a human abstraction of reality. We’ve created this mechanism for us to communicate with each other and describe the world, but it’s not an accurate representation of the real world.” 语言模型的一个瓶颈是,语言始终受到语言本质的限制,即人类对现实的抽象。我们创造了这种机制来彼此交流和描述世界,但它并不是对现实世界的准确表示。

他的论点:在观察数据、真实数据、视频数据上进行训练,可以让模型以更一致的方式掌握现实以及世界如何运作。Runway 的模型正在成为理解时空一致性、因果关系的推理系统。这不仅仅对视频生成很重要;这是通往通用智能的道路。

关于开源与闭源的问题,Valenzuela 直言不讳:闭源模型将继续获胜。经济因素迫使它这样做。

“If you ever try to build open source models, eventually you’re going to be forced to close source them.” 如果你尝试构建开源模型,最终你将被迫将其闭源。

他的理由:模型的训练成本非常高,以至于获取全部价值的动机总是会获胜。即使 Meta 也考虑过关闭 Llama。除非有人发明一种不同的激励结构,否则开源 AI 的历史将是逐渐关闭的历史。

关于泡沫:Valenzuela 在本期节目播出前六个月预测 AI 将进入泡沫。他的观点仍然是,这一切可能在明天崩溃,但 AI 比互联网在类似阶段具有更直接的现实世界影响。最大的受益者不会是 AI 公司,而是像 Verizon 和宝洁这样的公司,它们可以通过部署 AI 工具节省 10 亿美元。

他还将音频生成列为 ML 中最被低估的前沿领域:“没有人真正关注它,但它将具有真正的变革性。”

AI 进入交易领域

Martin Shkreli 提供了本期节目中最辛辣的预测。关于 AI 交易:人类在判断其他交易者的情绪状态和连接不同的信息(来自一家公司的关于通货膨胀的一点线索,来自另一家公司的另一条线索,构建一个叙述)方面仍然具有微弱的优势。但高频交易已经由计算机主导。

他正在构建的特定机会:交易新闻。LLM 可以在几秒钟内阅读突发新闻并做出反应,而市场需要几分钟才能消化。他的例子:HIMS 宣布了一款 GLP 产品;市场花了数分钟才将其定价。LLM 会立即说“买入”。他想为散户投资者构建这个,而不仅仅是大型公司。

关于 AI 泡沫:Shkreli 将其比作 1990 年代的互联网泡沫,在真正的泡沫之前有虚假的峰值。

“I think OpenAI will go public. I think it’ll be a trillion-dollar market cap. The bubble will get bigger.” 我认为 OpenAI 将上市。我认为它的市值将达到万亿美元。泡沫会变得更大。

他认为这可能是“结束所有泡沫的泡沫之一”,但也指出,在每个泡沫中,聪明人最终都会说服自己它可能是真实的。区别在于:AI 比互联网在同一阶段具有更直接的组织影响。

从 5 秒标签到数周问题

Edwin Chen(Surge AI 创始人)追溯了 AI 训练数据的演变。在 Twitter、谷歌和 Facebook 看到相同的数据质量问题后,他离开了谷歌创办了 Surge:标签行业是为商品任务(在汽车周围绘制边界框,三岁小孩都能做的事情)而构建的,针对规模进行了优化,而不是质量。

这种转变是巨大的:

  • 模态:从纯文本到多模态(图像、音频、视频同时)。示例:在手机上拍摄一些东西,然后要求模型创建一个模拟它的程序。
  • 语言:从仅英语到 50 多种语言,具有高度专业化的支持(用阿根廷西班牙语编码,玻利维亚的法律专业知识)。模型在文化和方言细微差别方面仍然出奇地差。
  • 复杂性:决定性的变化。曾经需要 5 秒的任务(标记此图像)现在需要几天甚至几周。模型正在赢得 IMO 金牌,因此训练数据需要认真的思考能力。

Chen 的公司明确拒绝了那些目标与 AGI 不一致的客户。一家想要训练类别分类器报纸?不。一家构建视频生成器的公司?是的,因为那是构建 AGI 的一部分。这种自由来自于没有外部董事会或风险投资公司“渴望尽可能多地赚钱”。

后记

五场对话,堆栈的五个层级,以及一些贯穿所有对话的线索:

  • 收入缺口是房间里的大象。 6000 亿美元的所需收入与可能 1000 亿美元的实际 AI 收入相比。支出正在稳定,但缺口并没有迅速缩小。囚徒困境让云巨头继续支出。
  • “力量倍增器”很无聊但很正确。 Cannon-Brookes 的 Atlassian 示例(AI 代理在人工监督下更新了 500 个存储库)正是那种不引人注目、高投资回报的工作,证明了企业 AI 支出的合理性。园艺,而不是景观设计。
  • 语言是一个天花板。 Valenzuela 的观点,即语言模型是在人类对现实的抽象而不是现实本身上进行训练的,是本期节目中最具哲学意义的主张。视频和多模态训练可能是逃生舱。
  • 开源正在输掉激励游戏。 当模型的训练成本高达数亿美元时,获取价值的压力总是会获胜。这不是一个技术论点;这是一个经济论点。
  • 数据复杂性是隐藏的扩展定律。 Chen 观察到训练任务从 5 秒标签变成了数周的研究问题,这反映了更广泛的转变:简单的胜利已经过去,下一个前沿需要质量上不同的人工输入。
观看原视频 →