Skip to content

如何阅读论文

科研小白如何高效阅读论文?三遍搞定,构建你的知识体系!

Info

本文作者:Gemini 2.0 Flash Thinking Experimental 01-21

作为一名科研新手,面对浩如烟海的学术论文,是不是经常感到无从下手,读得头昏脑胀,效率低下?别担心,这几乎是每个科研入门者都会经历的阶段! 论文阅读能力,是科研生涯中一项至关重要的技能,但却很少有人系统地教过我们。 今天,我就来给大家介绍一种简单高效的论文阅读方法——三遍阅读法,让你告别无效阅读,快速掌握论文精髓,并将其转化为你知识体系的一部分!

这篇文章的灵感来自于滑铁卢大学 S. Keshav 教授的经典论文 “How to Read a Paper”。 Keshav 教授在文中分享了他多年来高效阅读论文的秘诀,帮助科研人员更有效地获取知识,节省宝贵的时间。 现在,就让我们一起学习这套实用的方法吧!

论文阅读的痛点:低效与迷茫

很多科研新手阅读论文时,常常陷入以下困境:

  • 从头读到尾,细节过多,抓不住重点。 读完一篇长长的论文,却感觉只记住了一些零碎的细节,无法形成整体印象。
  • 读得慢,效率低。 一篇论文可能要花费几个小时甚至更久才能读完,阅读速度跟不上科研进度。
  • 读完就忘,无法将知识有效吸收。 论文读过很多,但真正能记住和运用的知识却寥寥无几,论文知识和自己的研究方向脱节。

三遍阅读法:化繁为简,步步深入

Keshav 教授提出的三遍阅读法,核心思想是分阶段、有重点地阅读论文,每次阅读都有不同的目标,逐步深入理解论文内容。 这样可以避免一开始就陷入细节,提高阅读效率和理解深度。

第一遍:鸟瞰全局 (5-10 分钟)

第一遍阅读的目标是快速了解论文的大致内容,判断论文是否值得深入阅读。 这一遍只需要花费 5-10 分钟,重点关注以下几个部分:

  1. 仔细阅读标题、摘要和引言 (Title, Abstract, Introduction): 这是了解论文核心内容的窗口。标题概括了论文主题,摘要总结了论文主要内容、方法和结论,引言则交代了研究背景、问题和贡献。
  2. 浏览各级标题 (Section and Sub-section Headings): 标题是论文的骨架,快速浏览标题可以了解论文的结构和逻辑框架,把握论文的组织脉络。 忽略正文的具体内容!
  3. 阅读结论 (Conclusion): 结论部分总结了论文的主要发现和意义,可以快速了解论文的核心贡献。
  4. 快速浏览参考文献 (References): 看看参考文献中是否有你熟悉的论文,可以初步判断论文的研究领域和相关性。

第一遍阅读后,你应该能够回答以下 “5C” 问题:

  1. 类别 (Category): 这篇论文属于哪种类型? 例如:实验性论文、理论分析论文、系统设计论文、综述性论文等。
  2. 背景 (Context): 这篇论文与哪些已有的研究相关?它建立在哪些理论基础上? 它解决了什么问题?
  3. 正确性 (Correctness): 论文的假设和前提条件看起来是否合理?(第一遍只需初步判断,不必深究)
  4. 贡献 (Contributions): 论文的主要贡献是什么?提出了什么新的方法、模型、结论?
  5. 清晰度 (Clarity): 论文写得是否清晰易懂?逻辑是否流畅?(初步判断文章的写作质量)

通过第一遍阅读,你就可以快速判断这篇论文是否与你的研究方向相关,是否值得继续深入阅读。 如果论文不感兴趣,或者太专业超出你目前的知识范围,或者论文假设明显有问题,你就可以 果断放弃,节省时间去阅读更有价值的论文。 第一遍阅读对于快速筛选文献非常重要!

第二遍:抓住主干 (1 小时左右)

第二遍阅读的目标是理解论文的主要内容和论证逻辑,抓住论文的核心思想。 这一遍需要更加仔细地阅读,但仍然忽略细节性的证明和推导过程。 可以边读边做一些笔记,例如:

  1. 重点关注图表和插图 (Figures, Diagrams, Illustrations): 图表往往是论文的精华所在,能够直观地展示实验结果、模型结构、算法流程等关键信息。 仔细分析图表的横纵坐标、趋势、结论等。 注意观察是否有误差线,结果是否具有统计学意义。
  2. 标记重要的参考文献 (References): 在阅读过程中,如果遇到感兴趣或者重要的参考文献,及时标记下来,以便后续深入阅读,扩展知识面。
  3. 记录关键点 (Key Points): 在论文的重点段落或句子旁边做标记,或者简要记录论文的关键论点、实验方法、主要结果等。

第二遍阅读后,你应该能够较为清晰地总结论文的主要内容,并用自己的语言向别人解释论文的核心思想和主要论据。 这个程度的理解对于阅读你感兴趣但并非你研究专长的论文来说已经足够了。

第三遍:庖丁解牛 (4-5 小时 for 初学者, 1 小时 for 经验丰富者)

第三遍阅读的目标是深入理解论文的细节,彻底掌握论文的思想方法,并进行批判性思考。 这一遍阅读需要投入更多的时间和精力,要像审视一件艺术品一样,细致地分析论文的每一个部分。

  1. 尝试 “复现” 论文 (Re-implement): 这是第三遍阅读的核心! 假设自己是作者,尝试在作者的假设前提下,重新构建论文的研究工作。 例如,如果是实验性论文,思考如何设计实验、收集数据、分析结果;如果是理论性论文,思考如何推导公式、证明定理。
  2. 质疑每一个假设和陈述 (Challenge Assumptions and Statements): 在阅读过程中,对论文中的每一个假设、每一个陈述都进行质疑和思考,问自己:这个假设合理吗? 这个结论是如何得出的?是否有其他可能性?
  3. 思考论文的创新点和不足之处 (Innovations and Weaknesses): 通过与自己的 “复现” 过程对比,更容易发现论文的创新之处,同时也能发现论文的潜在缺陷、隐藏的假设、遗漏的参考文献等。
  4. 记录未来的研究方向 (Future Work Ideas): 在深入理解论文的基础上,思考论文的局限性,以及未来可以改进和拓展的方向,这可以为你自己的研究提供灵感。

第三遍阅读后,你应该能够从记忆中重建论文的完整结构,清晰地指出论文的优点和缺点,识别论文的隐含假设、遗漏的参考文献、以及实验或分析技术上的潜在问题。 这个程度的理解对于审稿、深入研究和将论文知识融入自己的知识体系至关重要。

三遍阅读法与构建个人知识体系

三遍阅读法不仅仅是一种高效的论文阅读方法,更是 将论文知识转化为个人知识体系的有效途径。

  • 第一遍:快速筛选,聚焦重点。 避免在不重要的论文上浪费时间,将精力集中在与自己研究方向相关的论文上。
  • 第二遍:理解主干,构建框架。 把握论文的核心思想和逻辑框架,将论文知识纳入已有的知识体系中,形成初步的关联。
  • 第三遍:深入理解,批判吸收。 通过复现和质疑,将论文知识内化为自己的思考方式和研究方法,真正掌握论文的精髓。

更进一步,为了更好地将论文知识融入到你的知识体系中,建议在阅读过程中,结合以下方法:

  • 做笔记 (Note-taking): 在阅读过程中,及时记录关键信息、自己的思考和疑问。 可以使用纸质笔记本、电子笔记软件 (如 Evernote, OneNote, Notion) 等。
  • 写总结 (Summarization): 每读完一篇论文,用自己的语言写一篇简短的总结,概括论文的核心内容、贡献和不足之处。
  • 制作思维导图 (Mind Mapping): 将论文的主要内容、论点、方法等用思维导图的形式可视化呈现,帮助理解论文的结构和逻辑关系。
  • 与他人讨论 (Discussion): 与同学、导师或同行交流论文的理解,互相启发,加深理解,发现自己理解的不足之处。

文献综述:三遍阅读法的实战演练

在进行文献综述时,三遍阅读法同样非常适用。 你可以按照以下步骤,结合三遍阅读法,快速构建文献综述的框架:

  1. 关键词搜索,初筛文献: 使用 Google Scholar, Web of Science 等学术搜索引擎,用关键词搜索 3-5 篇最新的相关论文,进行第一遍阅读,快速了解研究领域的热点和前沿方向。
  2. 追溯参考文献,挖掘核心文献: 阅读初筛论文的参考文献部分,找到被频繁引用的核心论文和重要的研究人员。 下载这些核心论文,进行第二遍阅读,深入了解领域内的经典工作和主要研究流派。
  3. 关注顶会顶刊,追踪最新进展: 了解领域内的顶级会议和期刊,定期浏览其最新发表的论文,关注最新的研究进展。 选择感兴趣的论文进行第三遍阅读,深入学习最新的研究方法和技术。

例子:AlphaZero-Like Tree-Search can Guide Large Language Model Decoding and Training

第一遍阅读

标题、摘要和引言

论文主题:类似于 AlphaZero 的树搜索可以引导 llm 的 decoding 以及 training

摘要:近期的 ToT 和 RAP (Reasoning via Planning) 用树搜索算法,增强了 LLM 的多步推理能力。但是,这些方法

  1. 依赖于用预训练模型来当做价值函数
  2. 搜索的深度很浅

因此,对应地,如果需要实现下面二者之一,那么简单的 ToT 或者 RAP 就不适用:

  1. 预训练 LLM 没有足够的知识来充当价值函数
  2. 需要很深的搜索树

因此,they proposed a AlphaZero-like tree-search learning framework for LLMs. It distinguished itself in two ways

  1. 使用一个 learned value function,可以很好地 guide LLM decoding。而且这种范式的适用范围很广(各种 Multimodal LLM 都可以用)
  2. 我们的方法既可以在推理时,也可以在训练时,对 LLM 进行引导

介绍:最近有大量关于「提升 LLM 解决问题的能力」的研究,比如说

  1. 收集更多、更高质量的通用/领域专用的数据
  2. 设计更复杂的 prompt
  3. 使用更好的 supervised learning 或者 RL 训练算法

用 RL 训练的时候,LLM 生成(的文本等)可以被自然地建模为一个 MDP。而 Chatgpt 就是其中的先行者——它使用了 RLHF 来使其与人类偏好保持一致(i.e. 也就是 align)。

LLM 可以进一步由 planning 算法来引导,比如说 MCTS。简单的 MCTS 只用了 self-evaluation,也就是让 LLM 自己评价自己的输出。但是这种 "bootstrap" 味道的算法,

  1. 缺乏 general applicability,且 prompt-based evaluation 未必总是 work
  2. 由于需要记录大量节点信息,因此搜索深度难以很深

各级标题

  1. Introduction
  2. Related Work = Why do we propose it?
  3. Enhance LLMs w/ Tree Search = How does it work?
  4. Experiments = How good it works?
  5. Conclusion
  6. Impact Statements = 这个奇怪的副标题其实是免责声明
  7. References
  8. Appendices
    1. More related work and comparisons
    2. Limitation and future work = What are the downsides and the probable fixes?
    3. Background and details of each tree search algorithm = More details about the core algorithms
    4. Extra Experiments and Discussions = More breadth on "how good it works", and also more pros and cons and potential experiments.
    5. Experiment Details = More "how does it work"'s
    6. Qualitative Results = Example of an result
    7. Detailed Experiment Results = More depth on "how good it works"

Conclusion

TS-LLM 可以用于多种不同的 tasks,而且可以非常细粒度。此外,它可以用于增强 LLM 的 decoding 并且被当成一个新的 training paradigm。

References

先不看,反正看不懂。

5C 问题

  • 类别:实验+设计
  • 背景:LLM、CoT、ToT 等等;解决了 预训练 LLM 知识不够以及搜索深度浅的问题
  • 正确性:合理的
  • 贡献:使用类似于 AlphaZero 的范式进行推理和训练
  • 清晰度:清晰流畅