Loops 详解:Claude、GPT、Mira 与真正有效的东西
一篇 905 万浏览的爆款文章,拆解 AI loop 的五大 building blocks、token 成本复利陷阱、Ralph Wiggum 静默烧钱 loop——以及一个把自家产品和巨头并列的产品软广套路。读懂它,你比时间线上 99% 的人更懂 loop。
工程级深度解读
先看穿这篇文章的「双层结构」:A 层是真正的工程干货,B 层是产品软广。把 Mira 和 Claude/GPT 并列是经典的偷换概念——前者是应用层,后者是基础模型。
这篇文章的双层结构
真·工程干货
loop 工程方法论:五大 building blocks、Verify 是心脏、maker-checker、cost per accepted change、判断是否需要 loop 的四条。与 Anthropic 官方 agent 工程指南高度一致,值得逐字精读。
产品软广
引出 Mira(Telegram bot),讲它能连 500+ app、做内容、当教练。作者与 Mira 存在强利益相关。标题把 Mira 和 Claude、GPT 并列是精心设计的修辞——应用层冒充基础模型。
loop 五大 building blocks(全文唯一值钱的部分)
作者这部分写得相当准确,下面用工程视角补全含可验证的对应物。Claude Code 和 Codex 现在这五个全内置了。
| # | 部件 / 职责 | 在 Claude Code / Codex 里的对应物 | 可验证 |
|---|---|---|---|
| 1 | Automation(自动化/心跳) — 让它"会自己跑",而不是你只跑一次 | /loop(按间隔重跑)、/goal(跑到条件成立)、hooks、cron / GitHub Actions |
✓ 可验证 |
| 2 | Skill(可复用指令) — 把规则/模式/禁区存成文件,按名调用 | Claude Code 的 SKILL.md、Anthropic Agent Skills |
✓ 可验证 |
| 3 | Sub-agents(干活/检查分离) — 写手和审查者用不同 agent,甚至不同模型/不同 effort | Claude Code 的 Task / Agent 工具、多 subagent 并发 | ✓ 可验证 |
| 4 | Connectors(连接器) — 让 agent 真去行动(开 PR、@ 人),而非只"建议" | MCP servers、GitHub / Linear / Slack 集成 | ✓ 可验证 |
| 5 | Verifier(验证器/闸门) — 自动拒绝坏输出,唯一决定 loop 帮你还是烧你钱 | 测试、类型检查、lint、build | ✓ 可验证 |
最关键的洞察在第 3 和第 5 条:maker-checker 分离(让模型 A 写、模型 B 查)解决了学术界说的 self-grading bias;而没有 verifier 的 loop = 烧钱机器。
DIY 对比:手搓 vs Claude Code 原生 vs Mira
把文章刻意隐去的选项补回来,这才是完整的决策图景。注意"被作者刻意忽略的竞品"那几行——尤其是 Claude Code 官方 Telegram channels。
| 维度 | 手搓(cron + LLM API + 自写 verifier) | Claude Code 原生(/loop + skill + subagent + hooks + MCP) | Mira(Telegram bot) |
|---|---|---|---|
| 搭建成本 | 高(要写代码、托管、鉴权) | 中(会写 prompt + skill 即可) | 低(发消息描述需求) |
| 可控性 | 完全 | 完全 | 黑盒 |
| 成本透明 | 完全透明(你直接付 API) | 完全透明(你自己的 API key) | 不透明("免费"背后接付费 LLM API) |
| 数据安全 | 自己掌控 | 自己掌控 | 发给第三方 |
| 适合任务 | 重型、定制化、生产级 | 中重型工程、coding | 轻量生活/办公自动化 |
| 生态连接 | 自己接 | MCP(官方标准,越来越丰富) | Composio 500+ app |
被作者刻意忽略的竞品(沉默的证据)
- Claude Code 官方 Telegram channels(@trq212,Anthropic Claude Code team,2026-03-19 发布)——用 Telegram 直接控制 Claude Code session,比 Mira 更深度集成、更可控
- ChatGPT 的 scheduled tasks / Operator
- n8n、Zapier AI、Make(成熟的工作流自动化平台)
- Cursor、Replit、Devin(coding agent)
选型决策框架(基于你的真实场景)
- 写代码、改代码库、跑测试 → Claude Code 原生(/loop + subagent + verifier),你已经有,不需要 Mira
- 重复性工程任务,每周 ≥ 1 次,有客观成功标准 → 搭正式 loop(四条全满足才搭)
- 一次性任务 → 一个好 prompt,别上 loop
- 轻量生活/办公自动化 → n8n / Zapier / Make 或 Mira,但先想清楚数据要不要发给第三方
- 质量是主观口味(写作、设计)→ 别用 loop,人类判断还是赢
两个被严重低估的指标
每个被采纳改动的成本
比"花了多少 token"重要十倍。loop 的产出要经过人工 gate,只有被你采纳的才算数。跑出 10 个 PR、merge 3 个、扔 7 个——那 7 个的 token 成本是纯浪费。接受率 < 50%,loop 就是负 ROI。
静默烧钱循环
Geoffrey Huntley 提出:agent 过早宣布"完成"然后退出,但 loop 调度器不知道,继续触发、继续花钱、产出为零。不报错,只在你睡觉时悄悄扣账。防御手段:硬迭代上限 + 真正的 verifier 闸门。
一、全文翻译
作者 Anatoli Kopadze(@AnatoliKopadze,"Adapt or die"),2026-06-20 发布,905 万浏览 / 4352 赞 / 649 转发。A 层干货部分逐字翻译,配工程视角的旁注。
多数人怎么用 AI?
AI 进到每个人手里已经好几年了。但大多数每天都在用它的人,用的却是最慢的方式:敲一个请求,等,改,再问,全程手动。
不是因为更快的方式有多复杂,而是因为没人给他们看过更快的方式长什么样。
更快的方式是一个 loop(循环),而现在,全世界最顶尖的 AI 工程师只关心这一件事。这篇文章补上的是「没人给你解释过」的那一块。
读完之后,你会比时间线上几乎所有人都更懂 loop:它是什么、底层究竟怎么运作、什么时候值得用、什么时候是个坑、如何在 Claude 或 ChatGPT 里手搓一个基础版,以及哪些简单的 loop 值得在你自己的生活里跑起来。
Loop 是什么?
一个 prompt(提示词)是一条指令。一个 loop 是一个 目标,AI 会持续朝着它工作直到达成。把它理解成一个递归目标(recursive goal):你定义一个目的,AI 反复迭代直到完成。
prompt 给你一个答案然后等你决定下一步。loop 则是自己跑完整个循环:Plan → Act → Verify → Fix → Repeat,其中 Verify 是核心。
这五个里,有三个干了几乎全部真正的活,也正是人们最容易搞错 loop 的地方:
Verify(验证)是 loop 的心脏
没有对结果的真实检查,你拥有的不是一个 loop,而是 agent 在反复附和自己。检查这一步,把「重复」变成「进步」。它可以是一个硬测试("代码能不能通过")、一个可衡量的条件("这个数是不是高于 X")、或者一个让模型对照打分的评分量表(rubric)。没有这道闸门,就是 agent 给自己的作业打分——而干活的那个模型,打分宽松得离谱。
State(状态)是让 loop 能学习的东西
每一轮,AI 必须记住自己已经试过什么,否则它会永远重复同一个错误。一个真正的 loop 会在旁边记一份小记录:什么做完了、什么失败了、下一步是什么。明天的运行是从断点续上,而不是从零开始。这也正是它开始变贵的地方。
停止条件(stop condition)是让它保持清醒的东西
一个没有出口的 loop,要么跑到成功,要么崩掉,要么掏空你的账户。每一个严肃的 loop 都有两种停止方式:成功,以及一个硬上限("试了 8 次之后,停下来汇报")。跳过这一步,你就造了一台能白白跑一整夜的机器。
你到底需不需要一个 loop?
多数文章在你搞清楚「什么时候它是个错误」之前,就先把 loop 卖给你了。这里有一个真正严肃的人会用的测试。只有当下面四条全部成立时,才值得搭一个 loop:
少打一个勾,就把它留在手动 prompt。整个话题的诚实版本是:loop 工程是真实的,但多数人还不需要那个重版本。
为代码而生的那一个版本
Loop 先在软件领域爆发,因为代码是这个世界上最容易验证的东西。测试通过或失败,没有可争辩的余地。底层看,一个真正的 loop 由五个 building blocks 组装而成(Claude Code 和 Codex 现在全内置了):自动化(心跳)、技能(可复用指令)、子代理(干活/检查分离)、连接器(让它去行动)、验证器(闸门)。
把这些叠起来,你就得到了大团队现在大规模运行的东西:同一个活儿上 looping 的 agent 舰队。有个工程师用这样一个 loop,在大约六天里把一整个代码库从一种编程语言重写到另一种语言——这活儿手工干要花将近一年。而它带着一个 demo 永远不会展示的代价。
没人提的成本
Loop 跑在 token 上,而 token 就是钱。问题不在于每一步都花钱。问题在于成本怎么 compound(复利式增长)。
loop 每转一圈,agent 就重新读一遍它的上下文:目标、代码、上一个结果、什么失败了。这一整堆每一次迭代都被送进模型,而且每一轮都在变大。一个跑十次的 loop,成本不是十个 prompt。它是十个各自越来越大的 prompt。
那个真正重要、却几乎没人追踪的指标,是 cost per accepted change(每个被采纳的改动的成本)。接受率低于 50%,它花出去的比它给你的多。
loop 还会静默失败。工程师 Geoffrey Huntley 把它叫作 "Ralph Wiggum loop":agent 过早判定自己完成了,在一个半成品上退出,loop 却继续跑、继续花钱,同时什么都不产出。没有一道能让活儿「挂掉」的硬闸门,loop 不会崩溃——它会在沉默中给你计费。
真正有效的顺序
如果你真要搭一个,顺序比工具更重要。跳过前面、去调度一个你还没手动跑可靠的活,正是 loop 在你睡觉时炸掉的方式。
先手动证明
手动跑可靠,证明这个活可以稳定完成。
再硬化它
加 verifier 闸门、迭代上限、错误处理。
然后才自动化
接 cron / hooks / /loop,让它自己跑。
同一个思想,用于你的真实生活(→ B 层软广开始)
剥掉代码和成本,剩下的是一个简单、真正有用的概念:一个自己运行的任务,按调度或在某事发生的那一刻,不需要你记住它或在场。
它叫 Mira,住在 Telegram 里。你像跟朋友发消息一样跟它说话,它跑起来的 loop 叫作 Skills(技能)。作者声称它连 500+ app(Composio)、有长期记忆、是 model-agnostic。
注意:这部分是产品转化层。Mira 的"免费"是获客话术——它接的是 GPT/Claude/Gemini 的付费 API。你的数据发给第三方。作者只字未提 Anthropic 2026 年 3 月发布的官方 Claude Code Telegram channels。
这对你到底意味着什么
loop 不是趋势,是一次谁在干活的转移。AI 不再等你推着它走过每一步,而是开始自己跑完整个活儿。
话虽如此,这不是你应该去追逐、或强行塞进它不属于的地方的东西。更多时候,你只会为了什么都没有而烧钱。
二、苏格拉底对话
loop 到底新在哪,我要不要上 Mira?——通过对话推演,带出"任何把概念科普和特定产品焊在一起的文章,先问被省略的官方方案是什么"。
三、个性化洞察
基于 QA 工程师 + 重度 Claude Code 用户 + 已有 skill/自动化体系的身份,这篇文章的价值是验证性的、不是启发性的——它讲的"重版本 loop",你已经在做了。
1. 你不需要 Mira,你已经是重版本 loop 的实践者
你日常用的就是文章说的「skill(SKILL.md)+ automation(定时任务)+ sub-agents(多 subagent 并发)+ verifier(QA 背景,测试自闭环就是你的闸门)」。文章 B 层推的 Mira 是给"不会写代码、想要轻量生活自动化"的人,不是给你。
你可以怎么做:把五大 building blocks 当 checklist,审计你现有的 skill 体系——哪个 skill 缺了 verifier 闸门?哪个该拆成 maker-checker 双 agent?
2. cost per accepted change 纳入 skill 评估
你有 quality-eval skill,可以加一个维度:一个 loop/skill 跑出来的结果,你的采纳率是多少?
你可以怎么做:在重复性 skill(follow-builders、ai-news-digest)上加"人工采纳率"统计,低于 50% 的就该加 verifier 或换更强模型,而不是让它空转烧 token。
3. Ralph Wiggum loop 命名了你踩过的坑
你 CLAUDE.md 里那条"禁止裸启动常驻进程"、cleanup-qmd-mcp-orphan 脚本——本质就是在防"loop 静默失败堆积"。这篇文章给了你一个理论框架:不是"孤儿进程",而是"verifier 闸门缺失导致的静默烧资源"。
你可以怎么做:下次再写定时任务,先问它有没有硬迭代上限 + 真正的成功判断?没有就别上 cron。
4. 先手动证明 → 硬化 → 再自动化(最被低估)
文章这个"顺序"洞察是全文最被低估的——你跳过手动验证直接上自动化的地方,就是你半夜被叫起来 debug 的地方。
你可以怎么做:在 skillify(提取技能)工作流里加一道前置门——任何要固化为自动化 skill 的流程,必须先手动完整跑通 3 次并记录失败点,才允许自动化。
5. 这篇文章本身是值得拆解的内容产品范本
它的"干货引流 + 产品转化"结构、把自家产品和巨头并列的修辞、用真概念给软广背书的手法——是技术自媒体的成熟套路。905 万浏览、4352 赞证明它有效。
你可以怎么做:正向用(你的干货是真的、转化的是你自己认可的产品),反向用(看到别人文章时 3 秒识别出"A 层干货 / B 层软广"的分界线,不被带节奏)。
带走的判断力
任何把"概念科普"和"特定产品"焊在一起的文章,先问一句:被省略的那个官方/开源方案是什么?
中文在上
Any article that welds "concept explainer" to "specific product" — first ask: what's the official / open-source option they left out?
精选评论
从 133 条回复里挑出有信息量的——包括当场抓出流程图方向错误的读者,和指出"这不就是 Unix batch job"的犀利一问。
有信息量的评论
作者未回应的质疑