1. 这周的"Loop 话语"为什么值得停下来听
这是个新闻相对安静的周期,swyx 借机把三条重量级人物的话摆在一起:
Peter Steinberger(Steipete,PSPDFKit 创始人,AI 工程圈知名实践者):
这是每个月的提醒:你不应该再手 prompt 编码 agent 了,你应该设计 loop,让 loop 去 prompt 你的 agent。
"Here's your monthly reminder that you shouldn't be prompting coding agents anymore. You should be designing loops that prompt your agents."
Boris Cherny(OpenAI Codex 团队 lead,前 Meta Llama):
我不再 prompt Claude 了。我写 loop,loop 来做工作。
"I don't prompt Claude anymore. I write loops, the loops do the work."
Andrej Karpathy(OpenAI 联创,前 Tesla AI 总监,刚在跑 Autoresearch):
要把这些工具用到极致,你必须把自己从瓶颈里挪出去。你不能在那里等下一个 prompt。你必须把自己抽出来,让事情完全自治——能拉满 token throughput、自己不在 loop 里,这才是目标。这场游戏的名字就是放大你的杠杆……我不想做那个看结果的 loop 内的研究员,我在拖系统的后腿。所以问题是:我该怎么重构所有抽象,让我自己不在其中——一次配置好,按下 go。
三个人三句话,指向同一件事:手工 prompt 已经是从前的人了。下一步是把 agent 包进可重复、自治、自动收敛的循环里。
2. swyx 的关键加码:你已经在很多 loop 里了
swyx 没只是转述。他补了一个被低估的观察:"people don't realize how many loops we are already in"(人们没意识到自己已经在多少个 loop 里了)。我用文字复原他贴的两张配图:
| 你已经在里的 Loop | 触发器 | 谁在循环 |
|---|---|---|
| CI/CD pipeline | git push | 编译器 + 测试 + linter |
| Code review | PR 创建 | reviewer + 作者 |
| Cron job | 时间到 | scheduler + 任务 |
| 监控告警 | 指标越线 | oncall + 修复 |
| Hacker News / Twitter 刷新 | 你无聊 | 推荐算法 + 你 |
| TDD(红绿重构) | 测试红 | 你 + 测试 |
| ChatGPT 多轮对话 | 你回一句 | LLM + 你 |
swyx 的洞察是:这些 loop 早已存在,它们之间的差别只是「谁在执行迭代」。当 agent 接管执行的那一天,loop 的拓扑没变,变的是 loop 内的 token throughput。
3. 全文最核心的一句:UP a loop vs DOWN a loop
请认真读这句话:
可以说,下个世纪整个游戏就是把 loop 叠起来(stack loops)做到尽可能高效。在每个阶段的早期,知道何时往下一个 loop(DOWN)——出错时为了可靠性——是有价值的;但更可能更有价值的,是知道如何往上走一个 loop(UP)——模型变强时,为了杠杆。
"One might argue the entire game of the next century is to be able to stack loops as effectively as possible. In the early days of each phase, it will be valuable to know when to go DOWN a loop when things go wrong (for reliability)… but it will probably be more valuable to know how to go UP a loop as models improve (for leverage)."
这句话给了 loop stacking 一个方向性的判断标准:
DOWN a loop(降级保稳定)
何时用:早期、模型弱、任务脆。
本质:保守策略。
UP a loop(升级换杠杆)
何时用:成熟期、模型强、任务可批量。
本质:激进策略。
swyx 的判断是——模型变强的速度会让 UP 的价值持续超过 DOWN。
4. The Salty Lesson for Agents(镇文之宝)
swyx 仿 Rich Sutton 的 The Bitter Lesson(《苦涩的教训》)写了 The Salty Lesson(《咸味教训》,名字本身就带情绪):
别像你历史上做的那样自己修东西。
要聚焦在那些能随着 agent 数量扩展的系统上——比如目标和编排。
"Don't fix things yourself, as you have done historically.
Instead focus on systems that scale with more agents, like goals and orchestration."
逐字拆:
- "Don't fix things yourself" —— 不是"不要修 bug",是"不要用手工的人类智慧去解决具体问题"。
- "as you have done historically" —— Sutton 原文的语气复刻:你过去 20 年的工程直觉是错的。
- "scale with more agents" —— 你的产出应该和 agent 数量成正比。加一个 agent 不能让你的产能 +1,说明你做错了。
- "goals and orchestration" —— 人类只做两件事:定义目标(goals)、定义 agent 之间的编排(orchestration)。其他交给 agent。
这跟 Karpathy 的"arrange it once and hit go"完全一致——你只配置一次,剩下的让 loop 跑。
5. 工程级拆解:到底什么是 "Loop"?
"loop"这个词被用得太玄。把它工程化:一个 agent loop 至少包含五个组件:
┌─────────────────────────────────────────────────┐
│ Orchestrator Loop(外层,人类设计) │
│ │
│ ┌────────────────────────────────────────┐ │
│ │ Goal Spec(目标定义) │ │
│ └────────────────┬───────────────────────┘ │
│ ↓ │
│ ┌────────────────────────────────────────┐ │
│ │ Agent Loop(内层,模型执行) │ │
│ │ ┌──────────┐ ┌────────┐ ┌────────┐ │ │
│ │ │ Observe │→│ Think │→│ Act │ │ │
│ │ └──────────┘ └────────┘ └────────┘ │ │
│ │ ↑ ↓ │ │
│ │ └────── Feedback ──┘ │ │
│ └────────────────┬───────────────────────┘ │
│ ↓ │
│ ┌────────────────────────────────────────┐ │
│ │ Verifier(验证器,可以是另一个 agent) │ │
│ └────────────────┬───────────────────────┘ │
│ ↓ │
│ 失败 → DOWN(外层重试 / 换 agent) │
│ 成功 → UP(外层调度下一个任务) │
└─────────────────────────────────────────────────┘
| 组件 | 职责 | 谁来做 |
|---|---|---|
| Orchestrator | 决定"接下来跑哪个 agent loop"、"失败后做什么" | 人类设计(CLAUDE.md、workflow、cron) |
| Goal Spec | 把模糊需求变成可验证的目标 | 人类写(PRD、issue、acceptance criteria) |
| Agent Loop | Observe → Think → Act 的标准 agentic 循环 | LLM |
| Feedback | 环境/工具/测试返回的信号 | 系统 |
| Verifier | 检查结果是否达标(可以是另一个 agent) | LLM 或确定性脚本 |
关键观察:人类的工作不是"消失",而是从 loop 内挪到 loop 外的 orchestrator。你写的 CLAUDE.md、issue.md、SKILL.md,本质上都是 orchestrator 的配置文件。
6. DIY 对比:手搓版 loop stacking vs 现在的官方版
很多人觉得 loop stacking 是新概念。其实你早就在做了:
| 任务 | 手搓版(2020-2023) | 现在(2026) | 省的核心 |
|---|---|---|---|
| 改 bug | 读 stack trace → google → 改 → 跑测试 → 失败 → 重试 | 自动读 stack → 改 → 跑测试 → 反思 → 重试 | 人类注意力 |
| 写 PR | 写代码 → push → CI → 改 → review → 改 | agent 写 → 自动开 PR → auto-review → 修 → 合 | 整个 review 周期 |
| 做调研 | 开 20 个 tab → 读 → 笔记 → 综合 | deep-analysis → N 个 subagent 并行抓 → 综合 | 上下文窗口和并发 |
| 跑实验 | 写脚本 → 跑 → 改参数 → 再跑 | agent 写 → 跑 baseline → 自动调参 → 总结 | 实验设计能力 |
省的核心不是时间,是"注意力切换成本"。手搓版里,每次 loop 都需要你重新进入状态、读上下文、做判断。Agent 版里,loop 自己迭代,你只在 orchestrator 层做配置。
7. 压力测试:这盘"loop 万能论"的真实漏洞
文章写得很爽,但我们要打脸: