X Article · 翻译解读

斯坦福 STORM 方法：如何让 Claude 像 PhD 一样做研究——以及它没告诉你的事

Nav Toor 这篇拿下 118 万阅读的爆款，把"多视角提问"装进增长黑客的壳里。框架是真的好——但去掉检索灵魂的 4-prompt 版本，本质是 persona-prompting，而且那 4 个号称"复制粘贴即可"的 prompt，正文里实际一张都没给。

来源：@heynavtoor 2026-06-17 发布 118 万阅读 / 2607 赞原文标题：The Stanford STORM Method

~8000 字 翻译 + 解读 + 评论，完整深度拆解

~15 分钟 阅读时长

X Article 原始来源：Nav Toor 的长推文

中级需要基础 prompt / RAG 概念

PART 1

完整中文翻译

原文：@heynavtoor 的 X Article，标题 The Stanford STORM Method: How to Make Claude Research Like a PhD in Minutes。下面是全文中文翻译，图片说明用方括号标注（原文 6 张配图均为概念示意图，不含可复制 prompt 文本）。

大多数人把 Claude 当搜索引擎用。提问、得到答案、关掉标签页。他们把最好的功能一直锁着没用。

收藏一下这篇 :)

斯坦福造了一个叫 STORM 的研究系统。在同行评审（peer reviewed）的测试中，它产出的文章比次优方法组织性高出 25%。它是开源的。它是免费的。几乎没人知道，你可以在 Claude 里用 4 个 prompt 跑通同一套思路。

不需要软件。不需要 GitHub。不需要安装。只要粘贴。5 分钟后，你对某个话题的了解，会超过那些花了好几天读资料的人。

第一阶段：STORM 到底是什么

STORM 全称是 Synthesis of Topic Outlines through Retrieval and Multi-perspective Question Asking（通过检索与多视角提问实现主题大纲的综合）。它由斯坦福 OVAL 实验室发表于 NAACL 2024。

你可以在 storm.genie.stanford.edu 试用在线版。免费，无需注册。输入一个话题，看着它在你面前写出一篇带来源引用的文章。完整代码在 github.com/stanford-oval/storm，MIT 协议。

但真正的奖品在这里：你根本不需要上面这些。斯坦福的方法只是一种思维方式。你可以在 Claude 里用 4 个复制粘贴的 prompt 跑通同样的思维方式。

图片说明：[原文此处为一张概念示意图：横向流程条，标注 "STANFORD STORM → Perspectives · Interviews · Outline · Synthesis"，下方时间轴 0:00 → 5:00，配文 "Four moves. Five minutes. PhD-grade research."。不含 prompt 文本。]

第二阶段：为什么单个 prompt 永远会失败

当你问 Claude"给我讲讲 X"，你拿到的是多数派观点。最常见的框架。最表层的东西。

你拿不到的是：每天和 X 打交道的实践者；觉得这个领域整个方向错了的怀疑论者；跟着钱走的经济学家；见过这个套路重演的历史学家；真正读过那些研究论文的学者。

这五个声音看到的是完全不同的东西。这正是博士生做的事。他们不是只问一个问题，而是问五个。

斯坦福那篇论文用数字证明了这一点。基于多视角构建的文章，比按常规方式构建的文章，组织性高 25%、覆盖面广 10%。这就是整个突破所在。

一份 PhD 级别的研究，需要一个人读 40 到 60 小时。大多数人挤不出这个时间。STORM 把它压缩了。下面这 4 个 prompt 把它压缩得更狠。总共 5 分钟。

当你问 Claude"给我讲讲 X"，你拿到的是多数派观点。

When you ask Claude "tell me about X" you get the majority view.

第三阶段：Prompt 1——多视角扫描

这是整套方法的心脏。把它粘进 Claude。把第一行里的主题替换成你的话题。

图片说明：[原文此处为一张概念示意图（并非可复制的 prompt 文本）。]

你得到的回报：对同一个话题的五种截然不同的解读。实践者看到学者忽略的东西。怀疑论者挑战实践者视为理所当然的假设。经济学家揭穿学者无视的激励结构。历史学家提供经济学家看不到的模式。

第四阶段：Prompt 2——矛盾地图

现在让 Claude 找出这 5 个声音在哪里打架。分歧所在之处，就是真正理解所在之处。

图片说明：[原文此处为一张概念示意图（并非可复制的 prompt 文本）。]

如果 5 个视角都同意，那它很可能是真的。如果没有任何一方触及某个话题，那你刚刚找到了整个领域的空白。

第五阶段：Prompt 3——综合

现在让 Claude 把所有东西整合成一份研究简报。你得到的回报：一份没有任何单一专家能写出的简报。它覆盖每个角度，点出矛盾，给可靠性排序，并落脚到一个具体的行动。这是一个博士生要花 48 小时才能产出的东西。你 90 秒就拿到了。

第六阶段：Prompt 4——同行评审

STORM 有一个已知的弱点。斯坦福自己的研究者就指出过：这个系统不会自我批判。信源偏见和事实错配会悄悄溜进来。这个 prompt 通过让 Claude 给自己的工作打分，来修复这个问题。你得到的回报：对你自己研究的一份诚实审视。强论点、弱论点、偏见、遗漏的角度。

第七阶段：5 分钟工作流

第 1 分钟

Prompt 1 · 多视角扫描

你拿到 5 个专家视角。

第 2–3 分钟

Prompt 2 · 矛盾地图

你拿到一张专家们在哪里分歧、以及为什么分歧的地图。

第 3–4 分钟

Prompt 3 · 综合

你拿到一份没有任何单一专家能写出的研究简报。

第 5 分钟

Prompt 4 · 同行评审

你知道什么是可靠的、什么不是。

总耗时：5 分钟。产出：一份带矛盾分析、综合结论、具体行动和可靠性评分的多视角简报。一个博士生手工产出这个要花 40 到 60 小时。不是因为他们慢，而是因为从 5 个角度阅读、梳理矛盾、综合、再自我批判，对单个人脑来说确实是一项 40 小时的工作。

第八阶段：从今天开始的 7 种用法

写任何文章或报告之前。跑这 4 个 prompt。你的稿子会覆盖到别人想不到的角度。
做重大商业决策之前。拿到全部 5 个视角。实践者告诉你现实中什么行得通。怀疑论者告诉你什么可能出问题。经济学家告诉你谁会获利。
面试之前。5 分钟内从 5 个角度研究这家公司。实践者视角给你行内黑话。怀疑论者视角给你犀利的问题。
投资之前。看多理由、看空理由、历史类比、激励地图、学术证据。矛盾地图告诉你真正的风险藏在哪里。
学一项新技能之前。从 5 个角度测绘这个领域。实践者告诉你先学什么。学者告诉你理论。怀疑论者告诉你什么是被过度炒作的。
谈判之前。从 5 个视角研究对方。理解他们的激励、弱点、历史行为。你带着结构性优势走进去。
做任何演讲之前。对你的话题跑一遍 STORM。你的幻灯片会在观众提出异议之前就先回答了它。

人格设定块（The Persona Block）

你是一个会读书的人。你问尖锐的问题。你不想要一份听起来很聪明、其实什么都没说的 200 字摘要。你想要真正理解事物。快速地。带来源地。像斯坦福研究生那样。而不需要付六年学费。

不那么舒服的真相

斯坦福团队在 2024 年发表了它。论文是同行评审的。代码是开源的。在线工具是免费的。方法就是四个 prompt。然而几乎没人在用。我们正处于一个 18 个月的窗口期。学会正确地用 AI 做研究的人，会在思维上碾压不会的人。不是因为他们更聪明，而是因为他们同时在跑 5 个视角、一张矛盾地图、一次综合、一次同行评审，而其他人还在读 Google 的第一条结果。

18 个月后，这种工作流会被烤进每一个工具里。优势将不复存在。今天，它还是个藏在眼皮底下的秘密。

PART 2

深度解读

这套框架是真的好——但它讲的"STORM"和斯坦福的 STORM 是两个东西。下面从工程层面把真 STORM 和 4-prompt 版本的差异、评论区最致命的反驳、以及一个"沉默的证据"全部说清楚。

先说结论

这篇文章的方法是真的有用，但它讲的"STORM"和斯坦福的 STORM 是两个东西。Nav Toor 这篇能拿下 118 万阅读、2600+ 赞，不是偶然。它把一个真正有认知价值的思想（多视角提问）装进了一个教科书级的增长黑客结构里：痛点钩子（"你把最好的功能锁着"）→ 权威背书（斯坦福、同行评审）→ 零门槛承诺（不用装、不用 GitHub、粘贴就行）→ FOMO（18 个月窗口期）→ CTA（收藏、转发、关注）。这个结构本身值得每一个做内容的人拆解学习。

真 STORM vs 4-prompt STORM：差了一个灵魂

STORM 这个名字里的 R = Retrieval（检索），不是装饰，是地基。把斯坦福那套系统拆开，它的运行时模型是这样的：

环节	真 STORM（斯坦福开源系统）	本文的 4-prompt 版本（纯 Claude 对话）
信息来源	实时联网检索，抓取真实网页 / 文献作为证据	无检索，全靠模型预训练知识 + 你喂的上下文
多视角的"多样性"来自哪	来自不同的检索来源（不同作者、不同立场的真实文章）	来自同一个模型扮演的 5 个角色
每个观点有无外部锚点	有，每条都挂在具体 URL / 引用上	没有，全是模型生成
能否被发现"说错"	能，因为可回溯到原始来源核对	难，模型编了个看似合理的数字你也未必察觉
本质	RAG（检索增强）+ 多智能体协同提问	Persona prompting（角色扮演提示）

评论区里技术含金量最高的一条，来自 @jeffweisbein，一刀切中了要害：

真正的 STORM 做检索……它搜索网页、用来源支撑每一个视角。粘贴 4 个 prompt 的版本跳过了这一步。所以你不是在做研究，你是在让 5 个专家玩角色扮演——而他们共享同一个模型的盲点。

real STORM does retrieval... it searches the web and grounds every perspective in sources. the paste-4-prompts version skips that. so you're not researching, you're persona-prompting 5 experts who all share one model's blind spots.

这句话为什么致命？因为它戳破了一个身份冒充：5 个"专家"看起来观点各异，但它们背后是同一个权重矩阵。一个模型对某个事实的盲点，会被它扮演的所有角色同时继承。你以为你在听 5 个独立的声音，其实你在听 1 个声音的 5 种口音。这正是评论区 @MadBeachMafia 实测踩到的坑——"在 Opus 4.6 上第一次跑就跑出了一些好笑的（编造的）数字"。

一个数据迁移的谬误

文章反复引用"组织性高 25%、覆盖面广 10%"。这个数字来自 STORM 论文（NAACL 2024，Stanford OVAL），方向上没问题——多视角提问确实能提升文章的结构性和广度。但论文测的是带检索的完整系统，不是裸 prompt。把带 RAG 的系统的成绩，迁移到剥掉 RAG 的 prompt 版本身上，这在逻辑上是偷换。4-prompt 版本的组织性是否也高 25%？没有任何证据。作者用真系统的数据，给了一个阉割版本背书。

一个"沉默的证据"：那 4 个 prompt，正文里其实没给

这是我在抓取原文时最意外的发现。文章 6 张配图，我逐一做了文字识别——没有一张包含 prompt 的实际文本。它们全是概念示意图：

"STANFORD STORM → Perspectives · Interviews · Outline · Synthesis"（流程图）
"THE BLIND SPOT PROBLEM / 4 of 10 angles seen. 6 missed."（盲点图）
"CONTRADICTION MAP / PRACTITIONER · ACADEMIC · SKEPTIC..."（矛盾图）
"THE 5-MINUTE PROMPT / Phase 1-4 / Paste once. Think better."（总览图）
"THE WINDOW / NOW ... 18 MONTHS / Today it is still a secret."（时间窗图）

文章核心承诺的是"4 个 copy-paste prompt"，但正文里每个 prompt 的位置都只是一张概念示意图，没有可复制的 prompt 全文。一个声称"5 分钟拿到 4 个现成 prompt"的文章，读者实际拿不到这 4 个 prompt——这件事本身值得在转发之前知道。

分歧所在之处，才是真正理解所在之处。

The fights are where real understanding lives.

但请别把婴儿连同洗澡水一起倒掉

把上面这些批评说完，必须补一句公道话：这套框架作为"思维工具"是真的好。多视角扫描、矛盾地图、综合、自我批判——这四步作为"强迫自己跳出默认框架思考"的认知脚手架，价值是实打实的。问题只出在它被包装成"研究"（research）这个词上。

更诚实的命名应该是："多视角头脑风暴 + 自我审计"，而不是"像 PhD 一样做研究"。PhD 研究的核心是原创性和真实文献综述，而这两样恰好是去检索化的 prompt 版本给不了的。

如果你想要真正的 STORM 体验，有三条路，按 fidelity（保真度）排序：

最高保真：用原版

直接用斯坦福原版——storm.genie.stanford.edu（在线，免费）或 github.com/stanford-oval/storm（本地跑）。它会真去检索。

中保真：手动接检索

在 Claude 里手动给检索能力——开 Web Search / 用 Projects 挂上你找的真实资料，让 5 个视角都基于检索结果，而不是模型记忆。

本文版本（低保真）：纯对话

纯对话 persona prompting。快，适合做头脑风暴和盲点扫描，但产出必须当成草稿，不能当结论——尤其是任何数字和事实。

苏格拉底对话：去掉检索，STORM 凭什么还叫 STORM？

学生我看了那篇爆款，说要 4 个 prompt 让 Claude 像 PhD 一样研究。我挺想试的，但评论区有人说"这不是研究，是角色扮演"。我被绕晕了——多视角不就是研究吗？

老师那我们先回到最朴素的问题：当你说"研究"一个话题时，你到底在做什么？

学生嗯……查资料，然后形成自己的判断？

老师对。注意那个"查资料"——它的本质是从一个你不掌握的外部世界里，把信息拉进来。你不知道答案，所以你去读别人写的东西。这个"外部性"是关键。那现在，如果 5 个专家的声音，全都是同一个 Claude 用它的训练记忆"演"出来的，缺了什么？

学生缺了……外部世界？它没去真的查，是在回忆自己被训练时见过什么。

老师一针见血。STORM 名字里的 R 是 Retrieval，检索。斯坦福的系统会真的去抓网页、抓论文，每个视角都挂在真实来源上。这才是"多"视角之所以"多"的原因——多样性的来源是不同的真实文本，不是一个模型的不同口音。那我问你：同一个模型扮演的 5 个角色，它们之间最可能共享什么？

学生共享……盲点？如果一个事实它训练时就没学好，那它演的 5 个角色都会说错？

老师而且更隐蔽——它们会用同样自信的语气说错。模型不会因为换了 persona 就突然知道自己不知道什么。所以你觉得，把检索去掉之后，这套方法最适合用来做什么、最不适合用来做什么？

学生适合……做头脑风暴？逼自己换角度看问题？不适合用来查证事实、做投资决策那种需要准确数据的？

老师完全正确。它是一个极好的"思考脚手架"，却是一个危险的"知识来源"。最后留个问题给你：如果 18 个月后这套工作流真的"被烤进每个工具里"，到那时，真正稀缺的、能给你带来优势的，还会是"会跑这 4 个 prompt"吗？还是会是别的什么？

PART 3

精选评论

原帖 40 条评论里挑出 9 条最有信息量的，按立场分两栏：左栏是技术性反驳 / 实测警示，右栏是建设性补充 / 正面验证。

技术反驳 / 实测警示

@jeffweisbein（认证）｜本帖技术含金量最高的一条

扎实的一贴，但值得指出：真正的 STORM 做检索……它搜索网页、用来源支撑每一个视角。粘贴 4 个 prompt 的版本跳过了这一步。所以你不是在做研究，你是在让 5 个专家玩角色扮演——而他们共享同一个模型的盲点。

solid thread but worth flagging: real STORM does retrieval... the paste-4-prompts version skips that. so you're not researching, you're persona-prompting 5 experts who all share one model's blind spots.

@MadBeachMafia（认证）｜实测踩坑，幻觉警示

一定要加些护栏（guardrails），防止模型编造事实和产生幻觉。我在 Opus 4.6 上第一次跑就跑出了一些好笑的数字。

Make sure to have some guardrails in place to avoid fact creation and hallucination. I got some funny numbers on my first pass in Opus 4.6.

@_themousepotato（Navaneeth Suresh）｜戳中检索短板

你怎么让 Claude 绕过那些被 SEO 污染的文章？

How do you get claude to bypass all the SEO hacked articles?

@FossDT（David Tom Foss）｜反向观点：趋同扼杀创新

如果每个人都用同样的方式做研究，结果注定平庸。AI 民主化了研究，但如果所有人都走同一条路，就不会有什么进步。真正有趣的，恰恰是用完全非传统方式得出的结果。

If everyone researches in the same way, the results are bound to be poor... What's really interesting, after all, are the results that come about in completely unconventional ways.

@kortan_（Kirill，认证）｜质疑方法论有无数据验证

有没有任何数据证明这个方法有效？

Is there any analytics on this method working?

建设性补充 / 正面验证

@positivememes（Michael Dee）｜创作视角的反对

适合做幕后研究，但别把它搬到非虚构写作的成稿上。把五视角扫描用在任何非虚构题材上，回来的东西读起来就像一篇已经写完的文章——自带它的段落逻辑和重点。找到你自己的声音！

Good for backstage research, but keep it off the nonfiction page... FIND YOUR OWN VOICE!

@gv_sin（Gaurav Singh）｜建设性补充

一个想法——额外的视角可以基于资历级别或工作年限，当"五顶帽子"里有些不适用时会有帮助！

Additional perspective could be based upon Seniority level or Years of experience, that might help when some of the Five HATS are not applicable!

@dbschlosser（David B. Schlosser，认证）｜金句补充

"一次视角的切换，值 80 点智商。"

A change in perspective is worth 80 IQ points.

@ihtesham2005（Ihtesham Ali，认证）｜正面验证

我试了。有用。

I tried it. It works.

PART 4

个性化洞察

写给 QA 背景 + 重度 Claude 用户 + 关注 AI 产品设计的人。这套方法哪些部分最值得直接落地、哪些坑要绕开。

把"自我审计"做成强制最后一步

你天然对"模型编造"敏感，所以当你用这套方法时，把 Prompt 4（让模型给自己的产出打分、标弱论点和偏见）做成你的强制最后一步，而不是可选步骤。评论区 @MadBeachMafia 在 Opus 4.6 跑出幻觉数字就是活教材——没有审计步，多视角只会用 5 种方式整齐地骗你。

别让多视角停留在角色扮演，接上检索

你日常就在 Claude 里干活，最低成本的升级是：跑这套 prompt 时强制开启 Web Search，或把你在 X / HN / 论文库里扒到的真实资料塞进上下文，让 5 个视角基于检索结果发言。这一步把"低保真 persona prompting"直接拉到"中保真 STORM"，几乎零成本，效果天差地别。

"去检索化的研究"是产品评估的一把尺

这篇文章暴露的就是一个普遍的产品陷阱：把一个需要外部工具（检索）才能成立的能力，简化成纯模型 prompt 来卖。评估任何"AI 研究 / 分析"类产品时，先问一句"它的多样性来自检索还是来自模型自演"——这一问能帮你过滤掉一半名不副实的东西。

把这篇文章的增长黑客骨架逆向拆解

它的钩子结构（痛点 → 权威 → 零门槛 → FOMO → CTA）、视觉设计（每节配一张高对比概念图）、节奏控制都极成熟。你做技术自媒体，可以把这套骨架拿来装真正有干货的内容——把它的传播力和你的工程级深度结合，比原作者更有杀伤力，因为你愿意把"4 个 prompt 实际长什么样"这种核心交付物真的给出来。

一个模型对某个事实的盲点，会被它扮演的所有角色同时继承。你以为你在听 5 个独立的声音，其实你在听 1 个声音的 5 种口音。