2026年2月1日 · 访谈 · 38min
OpenClaw 创始人如何用 AI 在 40 分钟内掌控生活
OpenClaw 最初只是一个将 WhatsApp 连接到 Claude Code 的一小时黑客项目。现在它已经发展到 30 万行代码,运行在所有主流消息平台上,其创建者用它来办理航班登机手续、控制床的温度、观看他的安全摄像头,甚至在摩洛哥的生日旅行中修复 GitHub 的 bug。其核心理念简单而激进:赋予 AI 访问你电脑的权限,它就能做任何你能做的事情。你的大多数应用程序都只是中间人。
从退休项目到生活操作系统
Peter Steinberger 从退休生活中回归,期待大型 AI 实验室能够构建一个显而易见的东西:一种从手机上监控和与你的编码代理交互的方式。当你进行“氛围编码”时,代理可能会在你吃饭时运行三十分钟,或者在两分钟后停止并提出问题,如果没有坐在电脑前,就无法进行查看。到 11 月,还没有人构建出这样的东西。因此,他花了一个小时将 WhatsApp 连接到 Claude Code:发送消息,它会用提示打开二进制文件,然后返回结果。
然后,它就有了自己的生命。在摩洛哥的生日旅行中,他发现自己一直在使用它:询问餐厅推荐、获取路线,以及在一个令人难忘的时刻,通过 WhatsApp 收到了一条关于 bug 的推文截图。机器人读取了这条推文,理解存在一个 bug,检出了 git 仓库,修复了它,提交了代码,并回复了 Twitter 上的那个人说问题已修复。所有这些都发生在 Steinberger 吃晚餐的时候。
语音消息事件使这种潜力具体化。他在没有构建语音支持的情况下发送了一条语音消息。机器人显示了一个正在输入的指示器,然后正常回复。当被问及如何做到时,它解释说:它看到一个没有扩展名的文件,检查了头部,将其识别为音频格式,在他的电脑上找到了 ffmpeg,将其转换为 WAV,寻找 whisper.cpp 但没有找到,发现了一个 OpenAI API 密钥,使用 curl 将其发送到 OpenAI 的转录 API,取回了文本,然后回复。
“Those things are so resourceful, although in a scary way.” 这些东西太有创造力了,虽然有点可怕。
那一刻,他顿悟了:这比在网络上使用 ChatGPT 有趣得多。这是“不受束缚的 ChatGPT”。大多数人没有意识到像 Claude Code 这样的 AI 编码工具不仅仅擅长编程;它们在解决任何类型的问题时都很有创造力。你只需要给它们工具。
CLI 大军
Steinberger 通过构建 CLI 大军来回应这一认识,因为代理最擅长调用命令行工具(这是它们训练的内容):
- Google Places API 用于位置查询和餐厅推荐
- Meme 和 GIF 查找,以便机器人可以用相关的 meme 回复
- 外卖追踪器(逆向工程了当地外卖平台的 API)
- Eight Sleep API(也是逆向工程的)用于控制床的温度
- Philips Hue 用于灯光控制
- Sonos 用于扬声器(作为早晨闹钟逐渐增加音量)
- KNX 家庭自动化 用于完全的公寓控制(它真的可以把他锁在房子外面)
- 安全摄像头 用于监控(它整夜观看,并将他的沙发标记为“陌生人”,因为模糊的图像看起来像有人坐在那里)
- 访问电子邮件、日历、文件系统
- 1Password vault(一个单独的 vault 给 AI 使用,保持安全边界)
航班办理登机手续的故事充分展现了整个过程。他告诉 OpenClaw 办理他的英国航空公司航班的登机手续。第一次尝试,还在摩洛哥,集成还很粗糙,花了 20 分钟。AI 浏览了航空公司网站,在 Dropbox 上找到了他的护照,提取了相关信息,填写了表格,并愉快地点击通过了“我是一个人”的 CAPTCHA 检查(因为它控制着他电脑上的一个真实的浏览器,反机器人系统无法将其与人类区分开来)。现在它可以在几分钟内完成登机手续,因为 Skills 系统赋予了它持久的记忆:它记下每个网站的怪癖,并在下次记住它们。
80% 应用程序消亡论
“This will blend away probably 80% of the apps that you have on your phone.” 这可能会淘汰你手机上 80% 的应用程序。
逻辑很简单。当您拥有一个无限资源、完全了解您生活背景的助手时,每个本质上是 API 之上的一个简单界面的应用程序都会变得多余。
当 AI 已经知道你的饮食习惯,可以接受食物照片,将数据存储在数据库中,计算卡路里,并因为你吃了肯德基而嘲笑你时,为什么还要使用 MyFitnessPal?当助手可以访问所有这些服务的 API 时,为什么还要使用单独的待办事项应用程序、航班办理登机手续应用程序、睡眠追踪器、智能家居控制器或购物应用程序?
关键的洞察力不仅仅是自动化;而是消除上下文切换。与其打开五个不同的应用程序,每个应用程序都有自己的界面和数据孤岛,不如与一个了解一切并且可以在任何地方采取行动的实体交谈。而且因为它具有持久的记忆和学习能力,所以它会随着时间的推移而变得更好。第一次航班办理登机手续很慢。第二次需要几分钟。每次互动都会教会系统你的偏好、你的模式、你的怪癖。
社区已经发现了 Steinberger 从未想象过的用例:设置家庭机器人、管理 Cloudflare 基础设施、从对话中创建 GitHub 问题、将 Twitter 书签同步到待办事项列表、跟踪睡眠模式、构建 iOS 应用程序、购买杂货,甚至管理某人的整个 Tesco 购物流程。
代理陷阱
尽管构建了一个可以想象到的最依赖代理的个人设置,但 Steinberger 仍然对 AI 编码中的“代理工作流”趋势深表怀疑。他称之为“代理陷阱”:人们发现代理非常棒,然后陷入构建越来越复杂的编排工具的兔子洞。问题是你最终构建的是工具,而不是构建重要的东西。最糟糕的是?它太有趣了,以至于你没有注意到。
他花了两个月的时间构建了一个 VPN 隧道,以便从他的手机访问终端,它变得非常好,以至于他发现自己在餐厅用手机进行“氛围编码”,而不是与他的朋友交谈。为了他的心理健康,他不得不停止。
他批评的具体目标:
像“Gastown”(他的名字)这样的多代理编排器,你同时运行 20 个代理,带有观察者、监督者和一个协调一切的“市长”。他的结论是:“我称之为 Slop Town。”(垃圾镇)
基于循环的编码(“Ralph”模式),其中 AI 在循环中运行,完成小任务,丢弃上下文,然后重新开始:“终极 token 燃烧机器”。你可以整夜运行它,并产生“终极垃圾”。
核心问题是品味。AI 代理是“尖峰智能”,擅长特定任务,但无法对产品应该成为什么样子有愿景。
“Those agents don’t really have taste. They are spiky smart, but if you don’t navigate them well, it’s still going to be slop.” 这些代理真的没有品味。它们很聪明但参差不齐,如果你没有很好地引导它们,结果仍然会是垃圾。
当有人在 Twitter 上炫耀一个完全“Ralph”化的应用程序时,Steinberger 回复说:“是的,它看起来像 Ralph。” 没有哪个理智的人会这样设计它。24 小时无人值守的代理运行已经成为一种虚荣指标,一场“规模比较竞赛”。
人机循环
Steinberger 对自主代理编排的替代方案非常简单:保持参与。他与 AI 的创作过程遵循一个特定的模式。他从一个粗略的想法开始。当他构建并使用它时,他的愿景会变得清晰。每个提示都受到他对当前状态的所见、所感和所想的影响。
“My next prompt depends on what I see and feel and think about the current state of the project.” 我的下一个 prompt 取决于我对项目当前状态的所见、所感和所想。
你不能预先将所有这些都放入规范中。“预先将所有内容放入规范中”的方法错过了人机循环。构建好的东西需要“在循环中拥有感觉”。
他的实际设置反映了这种理念。没有 MCP(“我不使用 MCP 或任何这些垃圾”)。没有工作树。没有复杂的编排。相反:仓库的多个检出(clawdbot 1、2、3、4、5)、分屏终端,以及哪个检出空闲就执行下一个任务。感觉就像在经营一家工厂,或者像在玩一款实时战略游戏:管理多个小队攻击不同的目标。
他运行多个会话不是因为他需要并行性,而是因为只在一个会话上工作意味着太多的等待。有了多个会话,他可以保持流畅,并且比他手动编写所有代码时“效率高得惊人”。
计划模式是一种 hack,上下文已解决
关于 AI 编码工具的两个具体的热门观点:
计划模式是一种变通方法,而不是一项功能。 这是 Anthropic 必须添加的东西,因为早期的模型太容易触发,会立即开始编写代码。对于较新的模型(他更喜欢 Codex 而不是 Claude Code),你只需要进行对话:“嘿,我想构建这个功能。给我一些选择。让我们讨论一下。” 模型提出建议,你进行改进,然后才开始构建。他主要与它交谈,而不是打字。
上下文管理是一个已解决的问题。 使用 Codex,上下文持续的时间更长。在纸面上,它可能比 Claude Code 多 30%,但感觉像是 2-3 倍。他将此部分归因于 GPT 模型的内部思考过程。现在,大多数功能都适合在整个讨论和构建周期的一个上下文窗口中。早期模型中精心设计的上下文管理策略是“旧模式”。
将 Pull Request 视为 Prompt 请求
Steinberger 对社区贡献的处理方式以微缩的方式体现了他的理念。他以前的商业伙伴,一位受过培训的律师,现在发送 pull request。许多贡献者从未提交过 PR。
他将这些不视为要合并的代码,而是视为“prompt 请求”,即意图的表达。大多数贡献者缺乏系统理解来指导模型获得最佳结果。因此,他提取意图并自己重建它,有时基于 PR,总是将贡献者标记为共同作者。极少有外部代码直接合并。
该项目的入门反映了这种理念:除了简单的一行安装命令外,OpenClaw 还提供“可破解的安装”,你可以在其中克隆 git 仓库。这是使用它最有趣的方式,因为代理可以读取自己的源代码,重新配置自己,重新启动,并且“要么崩溃,要么拥有新的能力”。
专家的领域迁移
一个值得强调的线索:AI 对经验丰富的工程师切换技术栈意味着什么。Steinberger 花了 20 年的时间来掌握 Apple 生态系统。从概念上讲,迁移到 TypeScript 并不难,只是很痛苦。你了解数组、props 和状态管理,但你不知道语法。每一个小的查找都会让你慢下来,你觉得自己像个白痴。
AI 完全消除了这种摩擦。系统级思维、架构决策、对依赖项选择的品味,所有这些都可以在各个领域之间转移。唯一没有转移的是语法,而这正是 AI 最擅长处理的。
“I feel like I could build anything. Languages don’t matter anymore. My engineering thinking matters.” 我觉得我可以构建任何东西。语言不再重要。我的工程思维才是关键。
他决定将 OpenClaw 构建为一个 Web 应用程序,特别是因为他厌倦了 Apple 限制一切,并且基于浏览器的工具可以覆盖更多的人。一年前,这个决定意味着几个月痛苦的学习。有了 AI,过渡是无缝的。
后记
这次对话揭示了一个值得思考的悖论:将 AI 连接到他日常生活中最多方面的这个人,也是对编码工作流程中 AI 极大主义最直言不讳的批评者。
- 消息传递界面消除了 AI 采用的最大障碍。 不是能力、不是成本、不是安全性。而是因为在 WhatsApp 上与机器人交谈感觉就像给朋友发短信,而打开终端感觉就像工作。这项技术消失在一种熟悉的社交模式中。
- “边玩边学”胜过所有教程。 Steinberger 明确拒绝了怀疑论者的模式:花一天时间评估 AI,编写一个不完整的提示,得到糟糕的结果,然后将这项技术搁置一年。Prompt 是一项通过持续的、有趣的实验发展起来的技能。一天的评估毫无意义。
- 代理陷阱值得命名,因为激励机制不一致。 构建元工具(编排器、循环系统、代理管理器)确实很有趣,而这正是它危险的原因。有趣并不等同于高效。
- 应用程序消亡论存在一个时间问题。 这个预测很有说服力,但它取决于 API 保持开放、稳定和负担得起。平台历史表明,一旦公司意识到 AI 助手正在消除它们与用户的关系,它们就会努力阻止这种转变。