斯坦福 STORM 方法:如何让 Claude 像 PhD 一样做研究——以及它没告诉你的事
Nav Toor 这篇拿下 118 万阅读的爆款,把"多视角提问"装进增长黑客的壳里。框架是真的好——但去掉检索灵魂的 4-prompt 版本,本质是 persona-prompting,而且那 4 个号称"复制粘贴即可"的 prompt,正文里实际一张都没给。
完整中文翻译
原文:@heynavtoor 的 X Article,标题 The Stanford STORM Method: How to Make Claude Research Like a PhD in Minutes。下面是全文中文翻译,图片说明用方括号标注(原文 6 张配图均为概念示意图,不含可复制 prompt 文本)。
大多数人把 Claude 当搜索引擎用。提问、得到答案、关掉标签页。他们把最好的功能一直锁着没用。
收藏一下这篇 :)
斯坦福造了一个叫 STORM 的研究系统。在同行评审(peer reviewed)的测试中,它产出的文章比次优方法组织性高出 25%。它是开源的。它是免费的。几乎没人知道,你可以在 Claude 里用 4 个 prompt 跑通同一套思路。
不需要软件。不需要 GitHub。不需要安装。只要粘贴。5 分钟后,你对某个话题的了解,会超过那些花了好几天读资料的人。
第一阶段:STORM 到底是什么
STORM 全称是 Synthesis of Topic Outlines through Retrieval and Multi-perspective Question Asking(通过检索与多视角提问实现主题大纲的综合)。它由斯坦福 OVAL 实验室发表于 NAACL 2024。
你可以在 storm.genie.stanford.edu 试用在线版。免费,无需注册。输入一个话题,看着它在你面前写出一篇带来源引用的文章。完整代码在 github.com/stanford-oval/storm,MIT 协议。
但真正的奖品在这里:你根本不需要上面这些。斯坦福的方法只是一种思维方式。你可以在 Claude 里用 4 个复制粘贴的 prompt 跑通同样的思维方式。
第二阶段:为什么单个 prompt 永远会失败
当你问 Claude"给我讲讲 X",你拿到的是多数派观点。最常见的框架。最表层的东西。
你拿不到的是:每天和 X 打交道的实践者;觉得这个领域整个方向错了的怀疑论者;跟着钱走的经济学家;见过这个套路重演的历史学家;真正读过那些研究论文的学者。
这五个声音看到的是完全不同的东西。这正是博士生做的事。他们不是只问一个问题,而是问五个。
斯坦福那篇论文用数字证明了这一点。基于多视角构建的文章,比按常规方式构建的文章,组织性高 25%、覆盖面广 10%。这就是整个突破所在。
一份 PhD 级别的研究,需要一个人读 40 到 60 小时。大多数人挤不出这个时间。STORM 把它压缩了。下面这 4 个 prompt 把它压缩得更狠。总共 5 分钟。
当你问 Claude"给我讲讲 X",你拿到的是多数派观点。
When you ask Claude "tell me about X" you get the majority view.
第三阶段:Prompt 1——多视角扫描
这是整套方法的心脏。把它粘进 Claude。把第一行里的主题替换成你的话题。
你得到的回报:对同一个话题的五种截然不同的解读。实践者看到学者忽略的东西。怀疑论者挑战实践者视为理所当然的假设。经济学家揭穿学者无视的激励结构。历史学家提供经济学家看不到的模式。
第四阶段:Prompt 2——矛盾地图
现在让 Claude 找出这 5 个声音在哪里打架。分歧所在之处,就是真正理解所在之处。
如果 5 个视角都同意,那它很可能是真的。如果没有任何一方触及某个话题,那你刚刚找到了整个领域的空白。
第五阶段:Prompt 3——综合
现在让 Claude 把所有东西整合成一份研究简报。你得到的回报:一份没有任何单一专家能写出的简报。它覆盖每个角度,点出矛盾,给可靠性排序,并落脚到一个具体的行动。这是一个博士生要花 48 小时才能产出的东西。你 90 秒就拿到了。
第六阶段:Prompt 4——同行评审
STORM 有一个已知的弱点。斯坦福自己的研究者就指出过:这个系统不会自我批判。信源偏见和事实错配会悄悄溜进来。这个 prompt 通过让 Claude 给自己的工作打分,来修复这个问题。你得到的回报:对你自己研究的一份诚实审视。强论点、弱论点、偏见、遗漏的角度。
第七阶段:5 分钟工作流
Prompt 1 · 多视角扫描
你拿到 5 个专家视角。
Prompt 2 · 矛盾地图
你拿到一张专家们在哪里分歧、以及为什么分歧的地图。
Prompt 3 · 综合
你拿到一份没有任何单一专家能写出的研究简报。
Prompt 4 · 同行评审
你知道什么是可靠的、什么不是。
总耗时:5 分钟。产出:一份带矛盾分析、综合结论、具体行动和可靠性评分的多视角简报。一个博士生手工产出这个要花 40 到 60 小时。不是因为他们慢,而是因为从 5 个角度阅读、梳理矛盾、综合、再自我批判,对单个人脑来说确实是一项 40 小时的工作。
第八阶段:从今天开始的 7 种用法
- 写任何文章或报告之前。跑这 4 个 prompt。你的稿子会覆盖到别人想不到的角度。
- 做重大商业决策之前。拿到全部 5 个视角。实践者告诉你现实中什么行得通。怀疑论者告诉你什么可能出问题。经济学家告诉你谁会获利。
- 面试之前。5 分钟内从 5 个角度研究这家公司。实践者视角给你行内黑话。怀疑论者视角给你犀利的问题。
- 投资之前。看多理由、看空理由、历史类比、激励地图、学术证据。矛盾地图告诉你真正的风险藏在哪里。
- 学一项新技能之前。从 5 个角度测绘这个领域。实践者告诉你先学什么。学者告诉你理论。怀疑论者告诉你什么是被过度炒作的。
- 谈判之前。从 5 个视角研究对方。理解他们的激励、弱点、历史行为。你带着结构性优势走进去。
- 做任何演讲之前。对你的话题跑一遍 STORM。你的幻灯片会在观众提出异议之前就先回答了它。
人格设定块(The Persona Block)
你是一个会读书的人。你问尖锐的问题。你不想要一份听起来很聪明、其实什么都没说的 200 字摘要。你想要真正理解事物。快速地。带来源地。像斯坦福研究生那样。而不需要付六年学费。
不那么舒服的真相
斯坦福团队在 2024 年发表了它。论文是同行评审的。代码是开源的。在线工具是免费的。方法就是四个 prompt。然而几乎没人在用。我们正处于一个 18 个月的窗口期。学会正确地用 AI 做研究的人,会在思维上碾压不会的人。不是因为他们更聪明,而是因为他们同时在跑 5 个视角、一张矛盾地图、一次综合、一次同行评审,而其他人还在读 Google 的第一条结果。
18 个月后,这种工作流会被烤进每一个工具里。优势将不复存在。今天,它还是个藏在眼皮底下的秘密。
深度解读
这套框架是真的好——但它讲的"STORM"和斯坦福的 STORM 是两个东西。下面从工程层面把真 STORM 和 4-prompt 版本的差异、评论区最致命的反驳、以及一个"沉默的证据"全部说清楚。
先说结论
这篇文章的方法是真的有用,但它讲的"STORM"和斯坦福的 STORM 是两个东西。Nav Toor 这篇能拿下 118 万阅读、2600+ 赞,不是偶然。它把一个真正有认知价值的思想(多视角提问)装进了一个教科书级的增长黑客结构里:痛点钩子("你把最好的功能锁着")→ 权威背书(斯坦福、同行评审)→ 零门槛承诺(不用装、不用 GitHub、粘贴就行)→ FOMO(18 个月窗口期)→ CTA(收藏、转发、关注)。这个结构本身值得每一个做内容的人拆解学习。
真 STORM vs 4-prompt STORM:差了一个灵魂
STORM 这个名字里的 R = Retrieval(检索),不是装饰,是地基。把斯坦福那套系统拆开,它的运行时模型是这样的:
| 环节 | 真 STORM(斯坦福开源系统) | 本文的 4-prompt 版本(纯 Claude 对话) |
|---|---|---|
| 信息来源 | 实时联网检索,抓取真实网页 / 文献作为证据 | 无检索,全靠模型预训练知识 + 你喂的上下文 |
| 多视角的"多样性"来自哪 | 来自不同的检索来源(不同作者、不同立场的真实文章) | 来自同一个模型扮演的 5 个角色 |
| 每个观点有无外部锚点 | 有,每条都挂在具体 URL / 引用上 | 没有,全是模型生成 |
| 能否被发现"说错" | 能,因为可回溯到原始来源核对 | 难,模型编了个看似合理的数字你也未必察觉 |
| 本质 | RAG(检索增强)+ 多智能体协同提问 | Persona prompting(角色扮演提示) |
评论区里技术含金量最高的一条,来自 @jeffweisbein,一刀切中了要害:
真正的 STORM 做检索……它搜索网页、用来源支撑每一个视角。粘贴 4 个 prompt 的版本跳过了这一步。所以你不是在做研究,你是在让 5 个专家玩角色扮演——而他们共享同一个模型的盲点。
real STORM does retrieval... it searches the web and grounds every perspective in sources. the paste-4-prompts version skips that. so you're not researching, you're persona-prompting 5 experts who all share one model's blind spots.
这句话为什么致命?因为它戳破了一个身份冒充:5 个"专家"看起来观点各异,但它们背后是同一个权重矩阵。一个模型对某个事实的盲点,会被它扮演的所有角色同时继承。你以为你在听 5 个独立的声音,其实你在听 1 个声音的 5 种口音。这正是评论区 @MadBeachMafia 实测踩到的坑——"在 Opus 4.6 上第一次跑就跑出了一些好笑的(编造的)数字"。
一个数据迁移的谬误
文章反复引用"组织性高 25%、覆盖面广 10%"。这个数字来自 STORM 论文(NAACL 2024,Stanford OVAL),方向上没问题——多视角提问确实能提升文章的结构性和广度。但论文测的是带检索的完整系统,不是裸 prompt。把带 RAG 的系统的成绩,迁移到剥掉 RAG 的 prompt 版本身上,这在逻辑上是偷换。4-prompt 版本的组织性是否也高 25%?没有任何证据。作者用真系统的数据,给了一个阉割版本背书。
一个"沉默的证据":那 4 个 prompt,正文里其实没给
这是我在抓取原文时最意外的发现。文章 6 张配图,我逐一做了文字识别——没有一张包含 prompt 的实际文本。它们全是概念示意图:
- "STANFORD STORM → Perspectives · Interviews · Outline · Synthesis"(流程图)
- "THE BLIND SPOT PROBLEM / 4 of 10 angles seen. 6 missed."(盲点图)
- "CONTRADICTION MAP / PRACTITIONER · ACADEMIC · SKEPTIC..."(矛盾图)
- "THE 5-MINUTE PROMPT / Phase 1-4 / Paste once. Think better."(总览图)
- "THE WINDOW / NOW ... 18 MONTHS / Today it is still a secret."(时间窗图)
文章核心承诺的是"4 个 copy-paste prompt",但正文里每个 prompt 的位置都只是一张概念示意图,没有可复制的 prompt 全文。一个声称"5 分钟拿到 4 个现成 prompt"的文章,读者实际拿不到这 4 个 prompt——这件事本身值得在转发之前知道。
分歧所在之处,才是真正理解所在之处。
The fights are where real understanding lives.
但请别把婴儿连同洗澡水一起倒掉
把上面这些批评说完,必须补一句公道话:这套框架作为"思维工具"是真的好。多视角扫描、矛盾地图、综合、自我批判——这四步作为"强迫自己跳出默认框架思考"的认知脚手架,价值是实打实的。问题只出在它被包装成"研究"(research)这个词上。
更诚实的命名应该是:"多视角头脑风暴 + 自我审计",而不是"像 PhD 一样做研究"。PhD 研究的核心是原创性和真实文献综述,而这两样恰好是去检索化的 prompt 版本给不了的。
如果你想要真正的 STORM 体验,有三条路,按 fidelity(保真度)排序:
最高保真:用原版
直接用斯坦福原版——storm.genie.stanford.edu(在线,免费)或 github.com/stanford-oval/storm(本地跑)。它会真去检索。
中保真:手动接检索
在 Claude 里手动给检索能力——开 Web Search / 用 Projects 挂上你找的真实资料,让 5 个视角都基于检索结果,而不是模型记忆。
本文版本(低保真):纯对话
纯对话 persona prompting。快,适合做头脑风暴和盲点扫描,但产出必须当成草稿,不能当结论——尤其是任何数字和事实。
苏格拉底对话:去掉检索,STORM 凭什么还叫 STORM?
个性化洞察
写给 QA 背景 + 重度 Claude 用户 + 关注 AI 产品设计的人。这套方法哪些部分最值得直接落地、哪些坑要绕开。
把"自我审计"做成强制最后一步
你天然对"模型编造"敏感,所以当你用这套方法时,把 Prompt 4(让模型给自己的产出打分、标弱论点和偏见)做成你的强制最后一步,而不是可选步骤。评论区 @MadBeachMafia 在 Opus 4.6 跑出幻觉数字就是活教材——没有审计步,多视角只会用 5 种方式整齐地骗你。
别让多视角停留在角色扮演,接上检索
你日常就在 Claude 里干活,最低成本的升级是:跑这套 prompt 时强制开启 Web Search,或把你在 X / HN / 论文库里扒到的真实资料塞进上下文,让 5 个视角基于检索结果发言。这一步把"低保真 persona prompting"直接拉到"中保真 STORM",几乎零成本,效果天差地别。
"去检索化的研究"是产品评估的一把尺
这篇文章暴露的就是一个普遍的产品陷阱:把一个需要外部工具(检索)才能成立的能力,简化成纯模型 prompt 来卖。评估任何"AI 研究 / 分析"类产品时,先问一句"它的多样性来自检索还是来自模型自演"——这一问能帮你过滤掉一半名不副实的东西。
把这篇文章的增长黑客骨架逆向拆解
它的钩子结构(痛点 → 权威 → 零门槛 → FOMO → CTA)、视觉设计(每节配一张高对比概念图)、节奏控制都极成熟。你做技术自媒体,可以把这套骨架拿来装真正有干货的内容——把它的传播力和你的工程级深度结合,比原作者更有杀伤力,因为你愿意把"4 个 prompt 实际长什么样"这种核心交付物真的给出来。
一个模型对某个事实的盲点,会被它扮演的所有角色同时继承。你以为你在听 5 个独立的声音,其实你在听 1 个声音的 5 种口音。
精选评论
原帖 40 条评论里挑出 9 条最有信息量的,按立场分两栏:左栏是技术性反驳 / 实测警示,右栏是建设性补充 / 正面验证。
技术反驳 / 实测警示
@jeffweisbein(认证)|本帖技术含金量最高的一条
扎实的一贴,但值得指出:真正的 STORM 做检索……它搜索网页、用来源支撑每一个视角。粘贴 4 个 prompt 的版本跳过了这一步。所以你不是在做研究,你是在让 5 个专家玩角色扮演——而他们共享同一个模型的盲点。
solid thread but worth flagging: real STORM does retrieval... the paste-4-prompts version skips that. so you're not researching, you're persona-prompting 5 experts who all share one model's blind spots.@MadBeachMafia(认证)|实测踩坑,幻觉警示
一定要加些护栏(guardrails),防止模型编造事实和产生幻觉。我在 Opus 4.6 上第一次跑就跑出了一些好笑的数字。
Make sure to have some guardrails in place to avoid fact creation and hallucination. I got some funny numbers on my first pass in Opus 4.6.@_themousepotato(Navaneeth Suresh)|戳中检索短板
你怎么让 Claude 绕过那些被 SEO 污染的文章?
How do you get claude to bypass all the SEO hacked articles?@FossDT(David Tom Foss)|反向观点:趋同扼杀创新
如果每个人都用同样的方式做研究,结果注定平庸。AI 民主化了研究,但如果所有人都走同一条路,就不会有什么进步。真正有趣的,恰恰是用完全非传统方式得出的结果。
If everyone researches in the same way, the results are bound to be poor... What's really interesting, after all, are the results that come about in completely unconventional ways.@kortan_(Kirill,认证)|质疑方法论有无数据验证
有没有任何数据证明这个方法有效?
Is there any analytics on this method working?建设性补充 / 正面验证
@positivememes(Michael Dee)|创作视角的反对
适合做幕后研究,但别把它搬到非虚构写作的成稿上。把五视角扫描用在任何非虚构题材上,回来的东西读起来就像一篇已经写完的文章——自带它的段落逻辑和重点。找到你自己的声音!
Good for backstage research, but keep it off the nonfiction page... FIND YOUR OWN VOICE!@gv_sin(Gaurav Singh)|建设性补充
一个想法——额外的视角可以基于资历级别或工作年限,当"五顶帽子"里有些不适用时会有帮助!
Additional perspective could be based upon Seniority level or Years of experience, that might help when some of the Five HATS are not applicable!@dbschlosser(David B. Schlosser,认证)|金句补充
"一次视角的切换,值 80 点智商。"
A change in perspective is worth 80 IQ points.@ihtesham2005(Ihtesham Ali,认证)|正面验证
我试了。有用。
I tried it. It works.