如何做好研究
Vivek(Anthropic AI 研究员)写了一篇被 44 万人阅读的研究方法论长文。不是鸡汤,是一份可训练的技能清单——从选题、输入、记录、迭代到长期复利。
杂志长文
三重视角重构:让没读过原文的人也能被这篇文章的洞察击中。
这篇文章回答的问题: 研究能力究竟由哪些可训练的子技能组成,以及如何系统地提升它们。
这篇文章应该回答但没回答的问题: 那些遵循了所有建议但仍然失败的人,他们的故事是什么?结构性障碍(资金、准入、偏见)如何影响这些建议的适用性?
没人教过你的事
研究这件事,没人真教过你。你得到一张桌子、一个别人选好的课题、一句含糊的"做出点新东西来"。于是大多数人从能看到的东西——论文、推文、公告——去反推这份工作该怎么做。最终学到的是如何像一个研究者,而不是如何做一个研究者。
真正的技能是一堆小技能的叠加,而且几乎每一个都可以刻意训练。
1. 自己选题
Richard Hamming 在 Bell Labs 有个让他午饭时不受欢迎的习惯:问坐在旁边的人"你这个领域最重要的课题是什么",然后追问"那你为什么不做那个?"。人们换桌子躲他。这个问题扎心,因为大多数人答不上来。我们不选择课题,我们吸收课题——从导师那里、从大实验室上季度发的公告、从这周所有人都在 quote-tweet 的论文。
吸收来的课题,你只有结论没有推理。你知道某个大实验室在乎某个方向,但不知道为什么、不知道他们期待发现什么、不知道什么会让他们放弃。当他们转向时,你一年后才知道。
John Schulman 把 ML 研究分成两种模式:一种是读文献找可以改进的东西,另一种是选择一个你真心希望存在的成果,然后反向推导实验。他推荐第二种。安静的逻辑是:第二种模式制造原创性。一个你真正关心的目标,会把你拖进没有综述论文覆盖的领地。
品味(taste)被当作天赋来讨论,但它更像肌肉。在每个实验跑之前预测结果;遮住论文的结果部分,只看方法猜数字;标记这个月哪些成果两年后还有意义,然后回头检查命中率。一次预测加一次纠偏,重复几百次——你脑袋里那个模型就是这么训练出来的,和所有好模型的训练方式一样。
品味不是天赋,是肌肉。预测加纠偏,重复几百次——这就是训练,包括你脑袋里那个模型。
taste, meanwhile, gets discussed like a gift. it behaves more like a muscle. a forecast plus a correction, repeated a few hundred times, is how every good model gets trained, including the one in your head.
2. 升级你的输入
共享的阅读清单产生共享的想法。如果你的信息饮食是 arxiv 热门页加上群聊里存活下来的链接,你会可靠地和所有人同时得出同样的结论,而这些结论的价值约等于零。
老材料被严重低估。这个领域在延迟重播自己的历史:Mixture of Experts 始于 1991 年,LSTM 始于 1997 年,反向传播 1986 年才主流化。Rich Sutton 2019 年用一千个词写了 The Bitter Lesson,它对行业走向的预测比它十倍长度的综述都准。Claude Shannon 1952 年做了一个关于创造性思维的演讲,他的第一步是把问题缩小到近乎 trivial,解决小版本,然后一块一块地把难度加回去。这招比任何现代效率建议都管用。
附录是尸体埋藏的地方,limitations 部分通常是整篇文档里最诚实的一段。
the appendix is where the bodies are buried, and the limitations section is usually the most honest paragraph in the document.
3. 把一切写下来
Paul Graham 指出,一个想法在你想把它变成文字之前,会觉得自己完全成型了。纸面会找到你的脑子糊弄过去的漏洞:你没验证过的假设、实际上不成立的推导步骤、悄悄互相矛盾的两个论断。
Feynman 的规则:你第一个必须避免糊弄的人是你自己,因为你是最好骗的目标。写作是最廉价的防御。Darwin 更进一步,把它变成了流程:任何不利于他理论的事实,立刻写下来,因为他发现自己的记忆删除不利证据的速度比有利证据快。你的记忆对你的失败实验做同样的事。保持一个日志:假设、设置、预期、结果、更新后的信念。重读上个月的记录,那种羞辱感没有任何审稿人能比。
然后把一部分写出来公开。Olah 和 Carter 的 Research Debt 文章论证说,领域会被未消化的想法噎住,清晰的解释是真正的贡献,不是服务性工作。大量现在做可解释性研究的人,是通过可读的博文发现这个领域的,不是通过会议论文。公开写作也是你能持有的最强凭证,因为它是你思维方式不可伪造的样本。
4. 收紧循环
关于 Alec Radford(GPT-2/GPT-3 核心作者)的故事很少涉及单一的天才时刻。它们涉及体量。每天更多次实验、每周淘汰更多错误想法、一个比任何人都快的现实模型更新速度。这就是游戏本身。研究速度主要就是发现自己错了的速度。
研究速度主要就是发现自己错了的速度。
research speed is mostly the speed at which you discover you're wrong.
这使工具成为一等公民的研究活动。启动实验应该是一条命令,画图是另一条。每个实验都可以从配置文件复现,比较两个实验应该花几秒钟,不是一个下午的考古。Karpathy 的神经网络训练食谱里有一个回报率上百倍的步骤:大规模训练之前,先在单个 batch 上过拟合。30 秒,一半的 bug 消失。把一切缩小到便宜为止,搞对,再花算力。
而且,别再觉得工程是研究的配角。在技术前沿,这两份工作已经融合了。能搭 harness、搭 eval、搭数据管线的研究员,才是假设真正被测试的人。其他人都在排队。
5. 盯住输出
下降的 loss 曲线不是分析,是安慰。你的实验产生比你消耗的多得多的信息:transcript、失败案例、分布的奇怪尾部。大部分死在 logs 文件夹里无人问津。
Andrew Ng 教了十年同一个不起眼的动作,因为没有任何东西能打败它:拉 100 个失败案例,全部读完,分堆,攻击最大的一堆。对模型有用,对 eval 也有用——一个你从没读过 transcript 的 benchmark,是一个你并不真正理解的 benchmark。一个真正奇怪行为的 transcript 教你的东西,比下一个小数点的精度永远都多。
6. 有目的地漫游
你的第一个子领域是时间的偶然,所以把它当偶然对待。在可解释性、eval、RL、系统各花些真时间,再决定你住在哪。这个领域的某个角落有你特有怪异性的不公平优势,而定位它的唯一方式是在好几个地方交学费。没人给你免学费。
把消融做到你知道哪个组件承载了结果为止。通常是一个,而且通常不是标题里的那个。
7. 找到你的同路人
Hamming 注意到一个模式:关着门的同事在任何给定年份做更多的事,但开着门的同事做了重要的事——因为打断携带着关于世界真正需要什么的信息。
慷慨在研究中以独特的方式复利。复现一个结果并发表你的发现。发布你为自己构建的工具。用通俗语言解释难懂的东西。回报会以侧面方式到达——几个月后,作为你不可能申请到的合作、推荐或角色。在公开场合抛出你半成品的想法,因为在时间线上犯错比在论文中犯错便宜得多。
8. 长期游戏
Pasteur 说运气偏爱有准备的头脑,Hamming 在上面建了整个职业哲学:知识和生产力像利息一样复利。每天的边际收益单独看微不足道——你读什么、你记什么、你的循环跑多快、你和谁争论。给它们几年时间,它们产出从外部看起来像运气的职业。比感觉必要的更早开始复利。未来的你已经知道这是最便宜的部分。
比感觉必要的更早开始复利。未来的你已经知道这是最便宜的部分。
start compounding earlier than feels necessary. future you already knows this was the cheap part.
精选评论
有价值的声音
- @an2_yea:看起来是针对 AI 研究的,但可以推广到所有领域。(作者回复:my pleasure)
- @BetaTomorrow (10 likes):这是我在 ML 研究中见过最实用的建议之一。"one transcript of genuinely strange behavior will teach you more than the next decimal of accuracy" ——这应该贴在每个研究生的工位上。
- @akashramzz (3 likes):让我想起了 Hamming 的 "You and Your Research" 演讲。核心信息是相同的:选择重要的问题,而不是简单的问题。
- @profleonn (2 likes):作为一个刚从神经科学转向 AI 研究的人,"interpretability borrows shamelessly from neuroscience" 这句话让我笑了。
质疑与反面
- @ben_sturgeon:"写得不错,虽然看起来像是 AI 写的。"(附了一张 AI 检测器截图——这类检测器的可靠性本身就存疑)
- @ambivi5:标题应该改成 "how to try to be good at research"——Hamming 午餐的故事"同时令人悲伤和滑稽"。
- 隐含质疑:全篇引用名人故事(Hamming、Feynman、Darwin、Karpathy),幸存者偏差严重。所有建议都来自成功者,我们看不到同样遵循这些建议但失败的人。
- 结构性缺失:没有讨论资源不对等、资金壁垒、学术圈 gatekeeping 对研究路径的影响。来自 Anthropic 研究员的建议,天然带有"资源充足者"的盲区。
苏格拉底对话
师生对话,从"选题"走到"复利"。
个性化洞察
基于你的工作场景:独立开发者、Claude Code 重度用户、AI 产品构建者。
1. 你的 Claude Code 循环就是研究循环
为什么跟你有关: Vivek 说"研究速度就是发现自己错了的速度"。你日常的 Claude Code 工作流(写代码 → 跑 → 发现问题 → 修正)本质上就是这个循环。你已经有了速度优势。
你可以怎么做: 刻意记录每次循环的"假设 → 结果 → 更新后的信念",不只是修 bug,而是把每次循环当作一次微型实验。月度回顾时你会发现自己对某类问题的直觉在变准——这就是品味在训练。
2. "Shannon 缩小法"直接适用于你的产品开发
为什么跟你有关: 你在做 AI 产品时面对的是开放式问题("这个产品该做成什么样")。Shannon 的方法是先把问题缩小到 trivial——做一个最简版本、验证最核心的假设——然后逐步加复杂度。
你可以怎么做: 每次启动新功能时,先问"这个功能的最小验证版是什么?"。一个周末能做完的 MVP 胜过三周的完美方案。你的 Skill 体系(translate-analyze、daily-diary 等)其实已经是这个方法的实践——从最小可用开始,逐步扩展。
3. "公开写作是最强凭证"——你已经在做了,加大力度
为什么跟你有关: Vivek 说公开写作是"不可伪造的思维方式样本"。你的 Hugo 博客、翻译解读、知识库体系,本质就是这个。但它还可以更强。
你可以怎么做: 把半成品想法也公开。Vivek 说"在时间线上犯错比在论文中犯错便宜得多"。你的 /digest 和 /ingest 工作流产生的知识沉淀,本身就是一种公开研究笔记。考虑把更多"中间状态"的思考发出来——不是为了完美,是为了可被发现。
4. 警惕"幸存者偏差"和"资源盲区"
为什么跟你有关: 全篇引用 Hamming、Feynman、Darwin、Karpathy——全是成功者。文章天然忽略了结构性障碍。作为独立开发者,你没有 Anthropic 级别的算力和团队。
你可以怎么做: 把 Vivek 的建议当作上限参考,不是必须达成的标准。你的优势是灵活性和速度(不需要排队等工程资源),不是规模。在"有目的地漫游"这一条上,你其实天然就在做——跨项目、跨领域的独立工作本身就是漫游。善用这个优势。
5. 你已经在复利,但需要更刻意地记录
为什么跟你有关: Vivek 的核心隐喻是"知识和生产力像利息一样复利"。你的知识库(wiki_workspace)、Obsidian 笔记、日期记忆系统——这些就是复利的容器。但"Darwin 规则"要求你把不利证据也记下来。
你可以怎么做: 在知识库里增加一个"被推翻的假设"区域。每次你的技术判断被证明是错的,记录下来。这才是复利真正的燃料——不是正确的预测,是纠偏的速度。