2026年1月27日 · 播客 · 48min
Zach Lloyd:终端正成为人工智能的驾驶舱
终端本应成为历史遗迹。然而,它正逐渐成为人工智能代理时代的控制中心。Warp 的创始人兼 CEO Zach Lloyd 正是这样押注的。在与红杉资本的 Sonya Huang 的对话中,Lloyd 阐述了为什么终端基于文本、按时间排序的格式特别适合代理工作,Warp 如何从单人开发者工具转型为团队级代理编排平台,以及他为什么认为编码本身将在几年内被“解决”。
为什么终端能赢得代理时代
Lloyd 的核心论点几乎是违反直觉的:终端,作为计算领域最古老的界面之一,却拥有最适合最新范式的外形。
“The general form factor of the terminal is perfect for agentic work because everything is time-based. It’s all about input of text and output of text. You get to log what you’re doing. You can multitask agents in the terminal really easily.” 终端的通用形态非常适合代理工作,因为一切都是基于时间的。一切都与文本的输入和输出有关。你可以记录你正在做的事情。你可以在终端中非常轻松地进行多任务代理。
Warp 最初是一个面向专业开发者的现代终端。该公司用 Rust 从头重写了终端,使其更快、更具协作性且更易于使用。但编码代理的兴起改变了其发展轨迹。原本一个可有可无的开发者工具,在 Lloyd 看来,变成了开发者花费更多时间进行提示而不是编写代码的世界里,一个天然的工作台。
最初 Warp 的定位是将终端作为一个单人生产力工具。当团队开始需要共享环境、共享上下文,最终需要共享代理时,就发生了向“多人”的转变。Lloyd 认为,从单人终端到团队工作区的演变才是真正的产品机会。
与 Anthropic 和 OpenAI 竞争
对话中最坦诚的部分之一是关于竞争格局。Lloyd 承认了一个残酷的现实:像 Anthropic 和 OpenAI 这样的模型提供商正在构建自己的编码工具(Claude Code、ChatGPT 编码代理),并对其进行补贴,有时甚至低于成本。
Warp 的应对之策是在控制层(harness layer)而不是模型层上进行差异化。“控制层”是模型调用周围的一切:你如何提示,你公开哪些工具,你如何管理上下文窗口,何时使用子代理,何时进行总结或截断。
Lloyd 描述了一种系统性的方法来提高控制层的质量:内部评估、公共基准性能以及通过 Braintrust 等平台进行用户数据分析。对失败模式进行模式匹配,将它们作为评估重放,调整控制层,再次测量。
“That was a big mindset shift for us, to get to doing that, but that was 100% necessary to do it all data-driven to get to something that was good.” 对我们来说,这是一个巨大的思维转变,但 100% 有必要以数据驱动的方式来做,才能得到好的结果。
模型集成策略是务实的。Warp 目前支持 Claude、GPT 和 Gemini。Grok 已经多次联系,但尚未添加,因为每个新模型都需要调整控制层,而 Lloyd 希望在投入工程精力之前获得具体的用户利益。
在定价方面,Lloyd 直接指出了挑战。当你的竞争对手免费或低于成本提供他们的产品时,你要么找到差异化,要么失败。他认为,应用层(控制层 + 编排 + 团队功能)才是持久价值的所在,而不是模型 API 层。
从交互式代理到云代理
Lloyd 描述的最大产品押注是从交互式、开发者在键盘上操作的代理转向由系统事件触发的环境“云代理”。这是 Warp 的首要产品任务。
愿景是:不是开发者坐在终端前给出提示,而是系统事件自主触发代理。服务器崩溃、用户报告集群、安全事件,每一个都成为输入到在云中运行的代理的上下文,而不是在任何人的本地机器上运行。
这使 Warp 从一个产品转变为一个具有多层的平台:
- 用于构建自定义代理的 代理 SDK
- 适用于不想管理基础设施的公司的 代理托管
- 用于状态、接管、进度跟踪和日志的 API 层
- 管理层,所有正在运行的代理、它们的状态、输出和 PR 的驾驶舱视图
Lloyd 指出了 Warp 内部的争论:这个编排视图应该是一个单独的产品还是集成到现有的终端中?集成的优势是无缝交接。一个代理在云中工作,然后你把它拉到你的本地机器上,并在相同的环境中继续迭代。反驳的观点是,编排感觉更以 Web 为中心,并且可能服务于不同的用户。
今天的实际情况是:Warp 已经通过 Slack 和 Linear 运行代理。有人标记一个任务,一个代理接手,生成一个 PR,然后一个开发者完成循环。
代理实际所处的位置(以及未处的位置)
Lloyd 将当前的编码代理能力评为“大约 6 分(满分 10 分)”。他每天在 Warp 自己的代码库(一个大型的、自定义的 Rust 项目)上使用代理,他认为这是一个比平均水平更难的测试用例。
代理可以很好地完成的事情:
- 在指导下的中等复杂度的任务
- 从零开始创建应用程序
- 某种程度上很难的错误
- 中等大小的功能(例如,添加一个新的斜杠命令,产生一个大约 300 行的 PR,并且“基本上是正确的”)
代理不能做的事情:
- 整个大型项目
- 根本性的架构决策
- 持续的自主工作超过 20-30 分钟,然后“原地打转”
Lloyd 认为最大的瓶颈:
上下文窗口限制。 即使有更大的窗口,保持对整个上下文的关注仍然很难。没有持续的学习;代理是“大型的无状态事物”,总是从头开始,需要昂贵的上下文重新填充。
没有代理使用标准。 Lloyd 承认,即使在 Warp 内部,工程师使用代理的方式也存在很大的差异。有严格的编码标准,但对于如何使用代理“几乎没有标准”。没有人被教导过。没有达成一致的最佳实践。他认为这是一个重要的阻碍。
验证差距。 代理现在生成的代码几乎 100% 可以编译(这是仅仅 4-5 个月前的一个里程碑),但代码仍然经常有错误。缺失的部分是代理从用户的角度验证自己的工作,而不仅仅是从代码的角度。Lloyd 认为浏览器使用和计算机使用 API 是解决方案,尤其是在更多的代理工作转移到远程执行时。
编码将被解决
Lloyd 最具挑衅性的说法:编码本身将在几年内被模型“解决”。不是超级智能,确切地说,而是更具体的东西。
“The limiting factor that we’re going to come up against is just expression of intent from humans. What do you want built? How do you express that clearly? English is ambiguous.” 我们将遇到的限制因素只是人类意图的表达。你想要构建什么?你如何清楚地表达它?英语是模棱两可的。
他发现的讽刺之处:我们正在从一个人们通过代码精确表达意图的世界,转向一个他们通过英语模糊表达意图,然后依靠翻译层(模型)来生成代码的世界。即使它效率更高,这也是精确度上的“一个有趣的倒退”。
他的竞争含义:如果编码得到解决,你将不需要用于编码 token 的前沿模型。非前沿模型将产生与意图完全匹配的代码。这意味着编码的 API 业务将成为一种商品。Lloyd 认为,这正是 Anthropic、OpenAI 和 Google 如此努力地进入应用层的原因。编码特定 API 调用的利润可能会消失。
经济效益尚未显现
当谈到企业将 AI 编码工具视为劳动力替代品而不是生产力工具时,Lloyd 说我们还没有到那一步。公司仍然通过主观的开发者反馈(“你觉得你获得了价值吗?”)或 Dora 指标来评估这些工具。没有人认真地将一个 20 万美元的代理与一个 20 万美元的工程师进行定价。
什么会改变这一点:公司以最少或没有工程人员来交付产品。Lloyd 说这将会发生,但还没有发生太多。当它发生时,成本比较将变得不可避免。
提问并调整
在 ChatGPT 推出后不久,Lloyd 写了一篇博客文章,认为生产力界面将从手动编辑(在 Figma 中绘图、在 VS Code 中键入、在 Sheets 中输入单元格)转变为“提问并调整”,即你要求 AI 做某事,然后调整输出。
两年后,他认为这个论点基本上成立。有趣的细微差别是:在有许多可接受的解决方案的创意领域(如图像生成),你可以简单地重新提示,直到你得到一些好的东西。在像代码这样的领域,其中只有一个正确的答案,你仍然需要手动编辑界面才能使其完美。
Lloyd 引以为豪的一个细节是:Warp 在“代理模式”成为行业通用标签之前就创造了这个术语。他开玩笑说他们应该注册商标。
一些想法
这次对话值得关注,不是因为对终端的倡导,而是因为它揭示了在这个转折点上开发者工具领域的状况。
- 最有趣的动态是模型提供商与自己的客户竞争。Lloyd 正在 Claude 和 GPT 之上构建,而 Claude Code 和 ChatGPT 直接与 Warp 竞争。他的回应,押注于控制层和编排层,是经典的平台策略,但它是否能持久对抗受补贴的、垂直整合的竞争对手仍然是一个悬而未决的问题。
- “编码将被解决”的框架值得深思。如果瓶颈完全转移到意图表达,那么最有价值的技能将是知道要构建什么,而不是如何构建它。产品品味和领域知识升值;原始编码能力贬值。
- Lloyd 承认在他的公司内部对代理使用“几乎没有标准”是非常诚实的,并且可能代表了目前大多数工程组织的情况。编码标准和代理使用标准之间的差距可能是行业中最大的未开发的生产力机会之一。
- 代理 20-30 分钟的运行时上限,超过这个时间代理就会“原地打转”,这是一个具体的数据点,可以消除炒作。这意味着目前,代理是有限任务的协作者,而不是开放式项目的自主工作者。