X Article · 翻译解读

斯坦福 STORM 方法:如何让 Claude 像 PhD 一样做研究——以及它没告诉你的事

Nav Toor 这篇拿下 118 万阅读的爆款,把"多视角提问"装进增长黑客的壳里。框架是真的好——但去掉检索灵魂的 4-prompt 版本,本质是 persona-prompting,而且那 4 个号称"复制粘贴即可"的 prompt,正文里实际一张都没给。

来源:@heynavtoor 2026-06-17 发布 118 万阅读 / 2607 赞 原文标题:The Stanford STORM Method
~8000 字 翻译 + 解读 + 评论,完整深度拆解
~15 分钟 阅读时长
X Article 原始来源:Nav Toor 的长推文
中级 需要基础 prompt / RAG 概念
PART 1

完整中文翻译

原文:@heynavtoor 的 X Article,标题 The Stanford STORM Method: How to Make Claude Research Like a PhD in Minutes。下面是全文中文翻译,图片说明用方括号标注(原文 6 张配图均为概念示意图,不含可复制 prompt 文本)。

大多数人把 Claude 当搜索引擎用。提问、得到答案、关掉标签页。他们把最好的功能一直锁着没用。

收藏一下这篇 :)

斯坦福造了一个叫 STORM 的研究系统。在同行评审(peer reviewed)的测试中,它产出的文章比次优方法组织性高出 25%。它是开源的。它是免费的。几乎没人知道,你可以在 Claude 里用 4 个 prompt 跑通同一套思路。

不需要软件。不需要 GitHub。不需要安装。只要粘贴。5 分钟后,你对某个话题的了解,会超过那些花了好几天读资料的人。

第一阶段:STORM 到底是什么

STORM 全称是 Synthesis of Topic Outlines through Retrieval and Multi-perspective Question Asking(通过检索与多视角提问实现主题大纲的综合)。它由斯坦福 OVAL 实验室发表于 NAACL 2024。

你可以在 storm.genie.stanford.edu 试用在线版。免费,无需注册。输入一个话题,看着它在你面前写出一篇带来源引用的文章。完整代码在 github.com/stanford-oval/storm,MIT 协议。

但真正的奖品在这里:你根本不需要上面这些。斯坦福的方法只是一种思维方式。你可以在 Claude 里用 4 个复制粘贴的 prompt 跑通同样的思维方式。

图片说明:[原文此处为一张概念示意图:横向流程条,标注 "STANFORD STORM → Perspectives · Interviews · Outline · Synthesis",下方时间轴 0:00 → 5:00,配文 "Four moves. Five minutes. PhD-grade research."。不含 prompt 文本。]

第二阶段:为什么单个 prompt 永远会失败

当你问 Claude"给我讲讲 X",你拿到的是多数派观点。最常见的框架。最表层的东西。

你拿不到的是:每天和 X 打交道的实践者;觉得这个领域整个方向错了的怀疑论者;跟着钱走的经济学家;见过这个套路重演的历史学家;真正读过那些研究论文的学者

这五个声音看到的是完全不同的东西。这正是博士生做的事。他们不是只问一个问题,而是问五个。

斯坦福那篇论文用数字证明了这一点。基于多视角构建的文章,比按常规方式构建的文章,组织性高 25%、覆盖面广 10%。这就是整个突破所在。

一份 PhD 级别的研究,需要一个人读 40 到 60 小时。大多数人挤不出这个时间。STORM 把它压缩了。下面这 4 个 prompt 把它压缩得更狠。总共 5 分钟。

当你问 Claude"给我讲讲 X",你拿到的是多数派观点。

When you ask Claude "tell me about X" you get the majority view.

第三阶段:Prompt 1——多视角扫描

这是整套方法的心脏。把它粘进 Claude。把第一行里的主题替换成你的话题。

图片说明:[原文此处为一张概念示意图(并非可复制的 prompt 文本)。]

你得到的回报:对同一个话题的五种截然不同的解读。实践者看到学者忽略的东西。怀疑论者挑战实践者视为理所当然的假设。经济学家揭穿学者无视的激励结构。历史学家提供经济学家看不到的模式。

第四阶段:Prompt 2——矛盾地图

现在让 Claude 找出这 5 个声音在哪里打架。分歧所在之处,就是真正理解所在之处。

图片说明:[原文此处为一张概念示意图(并非可复制的 prompt 文本)。]

如果 5 个视角都同意,那它很可能是真的。如果没有任何一方触及某个话题,那你刚刚找到了整个领域的空白。

第五阶段:Prompt 3——综合

现在让 Claude 把所有东西整合成一份研究简报。你得到的回报:一份没有任何单一专家能写出的简报。它覆盖每个角度,点出矛盾,给可靠性排序,并落脚到一个具体的行动。这是一个博士生要花 48 小时才能产出的东西。你 90 秒就拿到了。

第六阶段:Prompt 4——同行评审

STORM 有一个已知的弱点。斯坦福自己的研究者就指出过:这个系统不会自我批判。信源偏见和事实错配会悄悄溜进来。这个 prompt 通过让 Claude 给自己的工作打分,来修复这个问题。你得到的回报:对你自己研究的一份诚实审视。强论点、弱论点、偏见、遗漏的角度。

第七阶段:5 分钟工作流

第 1 分钟

Prompt 1 · 多视角扫描

你拿到 5 个专家视角。

第 2–3 分钟

Prompt 2 · 矛盾地图

你拿到一张专家们在哪里分歧、以及为什么分歧的地图。

第 3–4 分钟

Prompt 3 · 综合

你拿到一份没有任何单一专家能写出的研究简报。

第 5 分钟

Prompt 4 · 同行评审

你知道什么是可靠的、什么不是。

总耗时:5 分钟。产出:一份带矛盾分析、综合结论、具体行动和可靠性评分的多视角简报。一个博士生手工产出这个要花 40 到 60 小时。不是因为他们慢,而是因为从 5 个角度阅读、梳理矛盾、综合、再自我批判,对单个人脑来说确实是一项 40 小时的工作。

第八阶段:从今天开始的 7 种用法

  1. 写任何文章或报告之前。跑这 4 个 prompt。你的稿子会覆盖到别人想不到的角度。
  2. 做重大商业决策之前。拿到全部 5 个视角。实践者告诉你现实中什么行得通。怀疑论者告诉你什么可能出问题。经济学家告诉你谁会获利。
  3. 面试之前。5 分钟内从 5 个角度研究这家公司。实践者视角给你行内黑话。怀疑论者视角给你犀利的问题。
  4. 投资之前。看多理由、看空理由、历史类比、激励地图、学术证据。矛盾地图告诉你真正的风险藏在哪里。
  5. 学一项新技能之前。从 5 个角度测绘这个领域。实践者告诉你先学什么。学者告诉你理论。怀疑论者告诉你什么是被过度炒作的。
  6. 谈判之前。从 5 个视角研究对方。理解他们的激励、弱点、历史行为。你带着结构性优势走进去。
  7. 做任何演讲之前。对你的话题跑一遍 STORM。你的幻灯片会在观众提出异议之前就先回答了它。

人格设定块(The Persona Block)

你是一个会读书的人。你问尖锐的问题。你不想要一份听起来很聪明、其实什么都没说的 200 字摘要。你想要真正理解事物。快速地。带来源地。像斯坦福研究生那样。而不需要付六年学费。

不那么舒服的真相

斯坦福团队在 2024 年发表了它。论文是同行评审的。代码是开源的。在线工具是免费的。方法就是四个 prompt。然而几乎没人在用。我们正处于一个 18 个月的窗口期。学会正确地用 AI 做研究的人,会在思维上碾压不会的人。不是因为他们更聪明,而是因为他们同时在跑 5 个视角、一张矛盾地图、一次综合、一次同行评审,而其他人还在读 Google 的第一条结果。

18 个月后,这种工作流会被烤进每一个工具里。优势将不复存在。今天,它还是个藏在眼皮底下的秘密。

PART 2

深度解读

这套框架是真的好——但它讲的"STORM"和斯坦福的 STORM 是两个东西。下面从工程层面把真 STORM 和 4-prompt 版本的差异、评论区最致命的反驳、以及一个"沉默的证据"全部说清楚。

先说结论

这篇文章的方法是真的有用,但它讲的"STORM"和斯坦福的 STORM 是两个东西。Nav Toor 这篇能拿下 118 万阅读、2600+ 赞,不是偶然。它把一个真正有认知价值的思想(多视角提问)装进了一个教科书级的增长黑客结构里:痛点钩子("你把最好的功能锁着")→ 权威背书(斯坦福、同行评审)→ 零门槛承诺(不用装、不用 GitHub、粘贴就行)→ FOMO(18 个月窗口期)→ CTA(收藏、转发、关注)。这个结构本身值得每一个做内容的人拆解学习。

真 STORM vs 4-prompt STORM:差了一个灵魂

STORM 这个名字里的 R = Retrieval(检索),不是装饰,是地基。把斯坦福那套系统拆开,它的运行时模型是这样的:

环节 真 STORM(斯坦福开源系统) 本文的 4-prompt 版本(纯 Claude 对话)
信息来源 实时联网检索,抓取真实网页 / 文献作为证据 无检索,全靠模型预训练知识 + 你喂的上下文
多视角的"多样性"来自哪 来自不同的检索来源(不同作者、不同立场的真实文章) 来自同一个模型扮演的 5 个角色
每个观点有无外部锚点 有,每条都挂在具体 URL / 引用上 没有,全是模型生成
能否被发现"说错" 能,因为可回溯到原始来源核对 难,模型编了个看似合理的数字你也未必察觉
本质 RAG(检索增强)+ 多智能体协同提问 Persona prompting(角色扮演提示)

评论区里技术含金量最高的一条,来自 @jeffweisbein,一刀切中了要害:

真正的 STORM 做检索……它搜索网页、用来源支撑每一个视角。粘贴 4 个 prompt 的版本跳过了这一步。所以你不是在做研究,你是在让 5 个专家玩角色扮演——而他们共享同一个模型的盲点。

real STORM does retrieval... it searches the web and grounds every perspective in sources. the paste-4-prompts version skips that. so you're not researching, you're persona-prompting 5 experts who all share one model's blind spots.

这句话为什么致命?因为它戳破了一个身份冒充:5 个"专家"看起来观点各异,但它们背后是同一个权重矩阵。一个模型对某个事实的盲点,会被它扮演的所有角色同时继承。你以为你在听 5 个独立的声音,其实你在听 1 个声音的 5 种口音。这正是评论区 @MadBeachMafia 实测踩到的坑——"在 Opus 4.6 上第一次跑就跑出了一些好笑的(编造的)数字"。

一个数据迁移的谬误

文章反复引用"组织性高 25%、覆盖面广 10%"。这个数字来自 STORM 论文(NAACL 2024,Stanford OVAL),方向上没问题——多视角提问确实能提升文章的结构性和广度。但论文测的是带检索的完整系统,不是裸 prompt。把带 RAG 的系统的成绩,迁移到剥掉 RAG 的 prompt 版本身上,这在逻辑上是偷换。4-prompt 版本的组织性是否也高 25%?没有任何证据。作者用真系统的数据,给了一个阉割版本背书。

一个"沉默的证据":那 4 个 prompt,正文里其实没给

这是我在抓取原文时最意外的发现。文章 6 张配图,我逐一做了文字识别——没有一张包含 prompt 的实际文本。它们全是概念示意图:

  • "STANFORD STORM → Perspectives · Interviews · Outline · Synthesis"(流程图)
  • "THE BLIND SPOT PROBLEM / 4 of 10 angles seen. 6 missed."(盲点图)
  • "CONTRADICTION MAP / PRACTITIONER · ACADEMIC · SKEPTIC..."(矛盾图)
  • "THE 5-MINUTE PROMPT / Phase 1-4 / Paste once. Think better."(总览图)
  • "THE WINDOW / NOW ... 18 MONTHS / Today it is still a secret."(时间窗图)

文章核心承诺的是"4 个 copy-paste prompt",但正文里每个 prompt 的位置都只是一张概念示意图,没有可复制的 prompt 全文。一个声称"5 分钟拿到 4 个现成 prompt"的文章,读者实际拿不到这 4 个 prompt——这件事本身值得在转发之前知道。

分歧所在之处,才是真正理解所在之处。

The fights are where real understanding lives.

但请别把婴儿连同洗澡水一起倒掉

把上面这些批评说完,必须补一句公道话:这套框架作为"思维工具"是真的好。多视角扫描、矛盾地图、综合、自我批判——这四步作为"强迫自己跳出默认框架思考"的认知脚手架,价值是实打实的。问题只出在它被包装成"研究"(research)这个词上。

更诚实的命名应该是:"多视角头脑风暴 + 自我审计",而不是"像 PhD 一样做研究"。PhD 研究的核心是原创性和真实文献综述,而这两样恰好是去检索化的 prompt 版本给不了的。

如果你想要真正的 STORM 体验,有三条路,按 fidelity(保真度)排序:

最高保真:用原版

直接用斯坦福原版——storm.genie.stanford.edu(在线,免费)或 github.com/stanford-oval/storm(本地跑)。它会真去检索。

中保真:手动接检索

在 Claude 里手动给检索能力——开 Web Search / 用 Projects 挂上你找的真实资料,让 5 个视角都基于检索结果,而不是模型记忆。

本文版本(低保真):纯对话

纯对话 persona prompting。快,适合做头脑风暴和盲点扫描,但产出必须当成草稿,不能当结论——尤其是任何数字和事实。

苏格拉底对话:去掉检索,STORM 凭什么还叫 STORM?

学生我看了那篇爆款,说要 4 个 prompt 让 Claude 像 PhD 一样研究。我挺想试的,但评论区有人说"这不是研究,是角色扮演"。我被绕晕了——多视角不就是研究吗?
老师那我们先回到最朴素的问题:当你说"研究"一个话题时,你到底在做什么?
学生嗯……查资料,然后形成自己的判断?
老师对。注意那个"查资料"——它的本质是从一个你不掌握的外部世界里,把信息拉进来。你不知道答案,所以你去读别人写的东西。这个"外部性"是关键。那现在,如果 5 个专家的声音,全都是同一个 Claude 用它的训练记忆"演"出来的,缺了什么?
学生缺了……外部世界?它没去真的查,是在回忆自己被训练时见过什么。
老师一针见血。STORM 名字里的 R 是 Retrieval,检索。斯坦福的系统会真的去抓网页、抓论文,每个视角都挂在真实来源上。这才是"多"视角之所以"多"的原因——多样性的来源是不同的真实文本,不是一个模型的不同口音。那我问你:同一个模型扮演的 5 个角色,它们之间最可能共享什么?
学生共享……盲点?如果一个事实它训练时就没学好,那它演的 5 个角色都会说错?
老师而且更隐蔽——它们会用同样自信的语气说错。模型不会因为换了 persona 就突然知道自己不知道什么。所以你觉得,把检索去掉之后,这套方法最适合用来做什么、最不适合用来做什么?
学生适合……做头脑风暴?逼自己换角度看问题?不适合用来查证事实、做投资决策那种需要准确数据的?
老师完全正确。它是一个极好的"思考脚手架",却是一个危险的"知识来源"。最后留个问题给你:如果 18 个月后这套工作流真的"被烤进每个工具里",到那时,真正稀缺的、能给你带来优势的,还会是"会跑这 4 个 prompt"吗?还是会是别的什么?
PART 3

精选评论

原帖 40 条评论里挑出 9 条最有信息量的,按立场分两栏:左栏是技术性反驳 / 实测警示,右栏是建设性补充 / 正面验证。

技术反驳 / 实测警示

@jeffweisbein(认证)|本帖技术含金量最高的一条

扎实的一贴,但值得指出:真正的 STORM 做检索……它搜索网页、用来源支撑每一个视角。粘贴 4 个 prompt 的版本跳过了这一步。所以你不是在做研究,你是在让 5 个专家玩角色扮演——而他们共享同一个模型的盲点。

solid thread but worth flagging: real STORM does retrieval... the paste-4-prompts version skips that. so you're not researching, you're persona-prompting 5 experts who all share one model's blind spots.

@MadBeachMafia(认证)|实测踩坑,幻觉警示

一定要加些护栏(guardrails),防止模型编造事实和产生幻觉。我在 Opus 4.6 上第一次跑就跑出了一些好笑的数字。

Make sure to have some guardrails in place to avoid fact creation and hallucination. I got some funny numbers on my first pass in Opus 4.6.

@_themousepotato(Navaneeth Suresh)|戳中检索短板

你怎么让 Claude 绕过那些被 SEO 污染的文章?

How do you get claude to bypass all the SEO hacked articles?

@FossDT(David Tom Foss)|反向观点:趋同扼杀创新

如果每个人都用同样的方式做研究,结果注定平庸。AI 民主化了研究,但如果所有人都走同一条路,就不会有什么进步。真正有趣的,恰恰是用完全非传统方式得出的结果。

If everyone researches in the same way, the results are bound to be poor... What's really interesting, after all, are the results that come about in completely unconventional ways.

@kortan_(Kirill,认证)|质疑方法论有无数据验证

有没有任何数据证明这个方法有效?

Is there any analytics on this method working?

建设性补充 / 正面验证

@positivememes(Michael Dee)|创作视角的反对

适合做幕后研究,但别把它搬到非虚构写作的成稿上。把五视角扫描用在任何非虚构题材上,回来的东西读起来就像一篇已经写完的文章——自带它的段落逻辑和重点。找到你自己的声音!

Good for backstage research, but keep it off the nonfiction page... FIND YOUR OWN VOICE!

@gv_sin(Gaurav Singh)|建设性补充

一个想法——额外的视角可以基于资历级别或工作年限,当"五顶帽子"里有些不适用时会有帮助!

Additional perspective could be based upon Seniority level or Years of experience, that might help when some of the Five HATS are not applicable!

@dbschlosser(David B. Schlosser,认证)|金句补充

"一次视角的切换,值 80 点智商。"

A change in perspective is worth 80 IQ points.

@ihtesham2005(Ihtesham Ali,认证)|正面验证

我试了。有用。

I tried it. It works.
PART 4

个性化洞察

写给 QA 背景 + 重度 Claude 用户 + 关注 AI 产品设计的人。这套方法哪些部分最值得直接落地、哪些坑要绕开。

把"自我审计"做成强制最后一步

你天然对"模型编造"敏感,所以当你用这套方法时,把 Prompt 4(让模型给自己的产出打分、标弱论点和偏见)做成你的强制最后一步,而不是可选步骤。评论区 @MadBeachMafia 在 Opus 4.6 跑出幻觉数字就是活教材——没有审计步,多视角只会用 5 种方式整齐地骗你。

别让多视角停留在角色扮演,接上检索

你日常就在 Claude 里干活,最低成本的升级是:跑这套 prompt 时强制开启 Web Search,或把你在 X / HN / 论文库里扒到的真实资料塞进上下文,让 5 个视角基于检索结果发言。这一步把"低保真 persona prompting"直接拉到"中保真 STORM",几乎零成本,效果天差地别。

"去检索化的研究"是产品评估的一把尺

这篇文章暴露的就是一个普遍的产品陷阱:把一个需要外部工具(检索)才能成立的能力,简化成纯模型 prompt 来卖。评估任何"AI 研究 / 分析"类产品时,先问一句"它的多样性来自检索还是来自模型自演"——这一问能帮你过滤掉一半名不副实的东西。

把这篇文章的增长黑客骨架逆向拆解

它的钩子结构(痛点 → 权威 → 零门槛 → FOMO → CTA)、视觉设计(每节配一张高对比概念图)、节奏控制都极成熟。你做技术自媒体,可以把这套骨架拿来装真正有干货的内容——把它的传播力和你的工程级深度结合,比原作者更有杀伤力,因为你愿意把"4 个 prompt 实际长什么样"这种核心交付物真的给出来。

一个模型对某个事实的盲点,会被它扮演的所有角色同时继承。你以为你在听 5 个独立的声音,其实你在听 1 个声音的 5 种口音。