引言

开篇先说一些“废话”,写这篇博客主要目的是想解决一个问题:怎么阅读文献和文档。很久之前看过一本书,《如何阅读一本书》,在这本书中作者大致把阅读分成了四个层次:

图一 《如何阅读一本书》

  • 第一个层次是基础阅读,也就是我们常说的只要弄清楚某句话的意思就可以了(英语水平一般的我,在阅读专业单词满天飞的英文资料时,有些句子还处于这个阶段)
  • 第二个层次是检视阅读,通常是指我们需要在短时间内了解某本书的大致框架,从而能够总结出“这本书在说什么”
  • 第三个层次是分析阅读,我愿意把这一层次的阅读叫做“尽情作”式的阅读,你需要仔细琢磨书中的各个概念以及各个概念之间的联系与区别,而且你需要有你自己的观点,并总结出作者的观点,和作者一样去思考问题,这一层次的阅读适合于那些非常有价值的书
  • 第四个层次是主题阅读,这一层次需要非常高的阅读技巧,因为你要读的不是一本书,而是几十上百本与某一特点主题相关的书

文献和文档从某种意义上说就是一本书,阅读层次和上面提到的四种是一致的,要提升阅读能力,也就必须锻炼自己在以上四个层次的阅读能力。

在写这篇博客的时候,我收集了中文和英文资料总共10多篇与“如何阅读文献”相关的文章,下面我将根据我阅读的内容以及我自己的思考来回答怎么阅读文献和文档这个话题。

合适的阅读材料

阅读文献、文档,最重要的是什么?在我脑海里,第一个冒出来的就是我所需要阅读的材料。不论我们是看一本书、看一篇文献或者是看某项产品的说明书(文档),你都需要选择适合你阅读的资料。

为什么是适合你的资料?这就像问你喜欢看什么电影、你喜欢听什么类型的音乐一样,你喜欢看什么书,你喜欢看什么类型的文献、文档?

如果从一开始,你所选择的书、文献、文档压根就不是你想读的,或者版面、风格非常粗制滥造,那么你去阅读的动力就会大大降低,从而极大的影响你的阅读效率。所以,在开始阅读任何材料之前,请先选择一份合适的阅读材料。

排版和美观的重要性

最简单的例子,我以前喜欢用笔写一些笔记,可是我字又写的不好看,排版也不好,最后的结果是什么?这些笔记早已不知道到哪里去了。

图二 好的排版示例 (来源网络

我现在的做法是什么?以后我会怎么做?我在一个月之前是会把阅读笔记和对一些问题的思考用印象笔记记录下来,以后呢?我会用Markdown作笔记,然后托管到Github上面,截止到现在也差不多有10多篇博客,10多篇文献阅读笔记了。我之所以用Markdown记笔记并且托管到Github上的原因有以下几个:

  • 排版、目录结构、图表清晰
  • 访问方便
  • 付出过辛勤汗水,会让人更想重新阅读、复习
  • 便于迁移和分享(无论是公开到博客、实验室内部交流还是私货)
  • 可重复利用性(通过整理某些小知识点或者技巧,在以后的项目或者写作中可以复用)

同样的,对于别人写的文献、笔记、文档,如果排版、目录结构、图表清晰度等不符合我的阅读习惯,我会选择搜索更好的阅读材料。

进一步说,如果你拿到一篇文献、文档,你看了标题、摘要或者是整篇文章的排版和图表,你发现你产生了情绪——无聊、厌恶。请你马上丢掉它,换一个好的阅读材料吧,现在互联网时代很发达,对某一主题进行描述或者介绍的文献或者资料肯定不会独一份,你可以选择其中最佳的一篇或者几篇来读。

你为什么要读它?

如果要选择一份合适的阅读材料,在拿到一篇文章或者一个文档时,你就需要回答的一个问题:

  • 你读它的最主要的目的是什么?

你是基于什么目的看这个文献或者文档的?如果这个问题不弄清楚,那么你在阅读的时候就会像一只无头苍蝇一样,是无法产生深刻的认识和理解的,特别是面对一些逻辑不清晰的文章,你会很容易迷失,抓不住重点。激进一点地说,一篇文章对你有价值的,正是那些你进行过仔细思考的内容,经过时间的流逝,最后,你能够记住或者回忆得起来的也就是这些重点内容了(比如主要创新点、可以借鉴的思路、方法)。

Feedly以及Pubmed

选择合适的阅读材料,一个重要的方向就是跟踪自己研究领域内最新的论文和相关期刊,之前有些同学可能喜欢用邮件去订阅,但是久而久之,邮箱是不是快被装满了,你也没什么动力一个一个去点击阅读了?

我强烈推荐一个RSS订阅器,Feedly,并配合Pubmed以及其他数据库、或期刊的RSS订阅功能来进行你的文献追踪和收集,如果你不知道什么是Feedly,可以点击这里进行阅读和试用。

图三 Feedly 订阅的Bioinformatics杂志

互联网上有非常多支持RSS订阅的期刊、网站(如博客、新闻)等,你可以建立你自己的RSS订阅资源,并对其进行分类管理。

图四 管理Feedly订阅源

如果是医学相关学生,你可以试用Pubmed数据库搜索某个关键词,然后对这个关键词生成RSS源,从而可以实时跟踪某些含有该关键词的最新论文。

图五 使用Pubmed订阅关键词

如果你想订阅某个期刊的所有在Pubmed中收录的文章?同样也可以,只需要输入Nather[Journal]这样的关键字,然后生成RSS就可以了,如果你想下载我订阅的RSS,可以点击这里,

主要包括以下期刊和博客:

  • Nature、Science、Cell、Lancet、New England Journal of Medicine、PNAS、Nature Gentics、Cancer Cell、Nature Reviews Cancer、Nature Reviews Genetics、Nature Medicine、Nature Methods、Nature Protocols、Nature Communication、Genome Research、Nucleic Acids Research、Bioinformatics、Genome Biology、Blood、Leukemia、Plos Genetics、PLOS Computational Biology、BMC Bioinformatics、Algorithms for Molecular Biology、Molecular Systems Biology、Plos Biology、
  • RNA-seq Blog、安正超的博客、谢易辉的博客、李剑峰的博客

图六 使用Pubmed订阅Nature杂志

你可以动手,试试将Nature Biotechnology 加入你的RSS订阅源。

合理的阅读顺序

阅读文献和阅读文档有着显著地差别,前者倾向于对某一个或一系列科学问题进行的探索和回答,读者需要按照作者的思路进行阅读和理解;而文档则更加侧重于工具、软件的使用,读者更多的是要动手模仿以及尝试。

文献类

首先我们一般将文献分为泛读类和精读类:

  • 泛读倾向于快速了解某一领域的最新进展以及发展历程或者是快速了解一些你之前并未了解过的知识,从而丰富你的知识面、对某一领域有更加系统的认识
  • 精读的文章,一般说明该文章具备较高的参考和学习价值,或是与你的研究方法类似或符合你的研究思路,那么你就需要尽力弄清楚作者的行文思路、主要观点、主要方法、主要结果

另外,进一步细分,我们还会把文献分为科学研究论文和综述类:

  • 科学研究论文一般是为了解决科学问题而进行了实验或者数据分析,会涉及许多实验材料、实验方法以及实验的结果和最后的科学结论
  • 综述类论文一般是对某一研究领域定期进行的一种梳理,为研究人员了解领域进展、把握未来的实验方向有重要参考,也是我们在写论文时的一个重要参考之一

图七 科学研究轮文(EBioMedicine)

泛读一篇科学研究论文一般可以按照下面的顺序进行阅读:

  • 摘要
  • 结果(图表及其描述文字)

精读一篇科学研究论文一般可以按照下面的顺序进行阅读:

  • 摘要
  • 引言
  • 结果(图表及其描述文字必看,如果遇到感兴趣的内容可以同时看看相应方法部分)
  • 讨论
  • 参考文献(注意收集相关文献,有时候某一篇文献没有看明白,可以多看两篇介绍类似内容的文章,不同的作者可能会有不同的角度去描述某一问题,从而帮助我们更加深刻的理解某一概念)

图八 综述类论文(Nat Rev Genet)

综述类论文不论是泛读还是精读,最最重要的就是先看各个标题,并快速总结出综述中提到的各个主题的主要结论、然后重点关注讨论部分。精读综述论文则还需要根据参考文献,进行进一步的扩展阅读。

阅读的顺序和重心一定是和你的阅读目的息息相关的,如果只是想通过阅读文献了解某一科学问题的答案,那你就要侧重于看文献的结果部分;如果你想开展课题实验设计,那你可能就要多关注方法学和实验设计部分;如果你是完全学习某一新的领域知识,那就需要通篇浏览一遍,并把你有疑问的地方标出,然后进行进一步的文献查找来回答你的这些疑问。

文档类

图九 技术文档(ANNOVAR)

阅读文档是生物信息以及与编程相关人员必须具备的技能,几乎所有用于数据分析的工具以及编程框架都会有各自的文档。

我们应该以什么样的顺序来阅读呢?

  • 版本信息,技术文档是有明确版本号的,它伴随着软件工具的整个生命周期,并且一一对应,如果你看的文档版本和你使用的软件版本不一致,那么你将会遭遇很多莫名其妙的错误
  • 相关教程,原作者和其他人一般会对某一工具的使用有基本的介绍和教程,在阅读文档之前,强烈建议先通读和练习这些教程对某一工具或编程框架有一个系统的了解。另外,如果在阅读文档或者教程过程中你有很多看不懂的地方(比如某个API的用法、某个专有名词概念),那就说明你需要尽量的去了解你正在学习和使用的这个工具主要有什么功能、主要模块有哪些,模块与模块之间是怎么交互的?为什么要设计这个API、为什么要创造这个概念?,然后通过看懂其他的概念、用法来让你对不懂的概念和用法有一个定位,并且从不同角度去切入理解这一概念或者用法
  • 关键字搜索文档,一般我们阅读文档都是有很强的目的性的,通过搜索某些关键字,你可以快速了解或者回忆起某一概念和具体的用法
  • 文档提到的新特性,一般某个工具是会不断更新的,常常会有新功能和旧功能的舍弃,所以在阅读文档时要重点看一下

优雅的记录笔记

我整理了几个记录笔记时的Markdown模板,最终的目的只有一个,就是让内容结构更加清晰。以下模板仅供参考。

文献阅读模板(仔细阅读)

下面是阅读文献 (仔细阅读)时保存的Markdown文件的模板,主要内容应该由以下几个部分构成:

  • 文献标题
  • PMID
  • 发表日期
  • 关键词
  • 概况
  • 好词好句
  • 笔记

笔记中的非文字内容如图片,可以单独建立一个个人仓库按照笔记名称进行分类保持,参考,这将有利于将来你对所有笔记进行移植和整理。

---
title: JCB | TCGA Pan-Cancer analysis project
author: Jianfeng Li
date: '2017-09-05'
slug: jcb-tcga-pan-cancer-project
categories:
  - Journal Club
tags:
  - Cancer
---

## 文献标题

<div align=center>
<img src='https://github.com/Miachol/Writing-material/raw/master/log/images/2017-09-05-JCB-TCGA/TCGA.png'>
<br/>
<b>The Cancer Genome Atlas Pan-Cancer analysis project</b>
</div>

## PMID

24071849

## 发表日期

2013-10

## 关键词

- [TCGA](https://tcga-data.nci.nih.gov/docs/publications/tcga/)
- Cancer Project
- Pan-Cancer analysis project

## 概括

### TCGA:

TCGA是一个由美国国立卫生研究院(NIH)发起的一个大型肿瘤研究项目(2005年启动)

- &gt; 30中癌症亚型
- &gt; 1万个肿瘤样本
- 基因组、转录组、DNA甲基化、蛋白质组

### TCGA Pan-Cancer analysis project:

Pan-Cancer analysis project是TCGA项目的一部分,于2012年启动,旨在利用TCGA数据库中不同类型的肿瘤中产生的大量数据(DNA、RNA、表观、蛋白水平),进行整合分析,寻找潜在非肿瘤特异的的肿瘤标志与靶点,并通过增加样本量以期识别出更多肿瘤特异的分子异常。

## 好词好句

### 单词

- daunting 令人畏惧的
- metastatic 转移性的
- pharmacological 药理学的

### 句子

- A prime example is provided by the NOTCH gene family, which is inactivated in
some squamous cell cancers of the lung, head and neck, skin, and cervix but activated by mutation in leukemias.

## 笔记

### 单一肿瘤研究与多肿瘤研究

高质量的单一类型肿瘤大样本数据可以发现新的驱动基因突变、分子标志,并通过这些标志物将某一肿瘤进一步细分。 近年来,随着各类新兴技术的开发和应用(表观修饰、单细胞、三代测序等等),将会有越来越多可以被应用于癌症分子分型和靶向治疗的分子标记物被发现。某些肿瘤类型特异的一些低频分子异常(mini-driver)将需要更多的样本进行识别。

通过多肿瘤研究,可以发现不同肿瘤共同存在的致病异常(突变、CNV、染色体结构变异),有助于开发具有普适性的治疗药物。 有时同一基因的异常在不同肿瘤中呈现了完全不一样的效果(既可以是癌基因又可以死抑癌基因)。

### Figures&Tables

<div align=center>
<img src='https://github.com/Miachol/Writing-material/raw/master/log/images/2017-09-05-JCB-TCGA/fig1.png'>
<br/>
<b>Fig 1</b>
</div>

该模板可以直接从这里下载。

文献阅读模板(泛读)

下面是阅读文献 (泛读)时保存的Markdown文件的模板,主要内容应该由以下几个部分构成(仅供参考):

  • 文章标题
  • 主要论点和论据
  • 文章标题
  • 主要论点和论据 …
---
title: JCB | 2017-09-08泛读整理
author: Jianfeng Li
date: '2017-09-08'
slug: jcb-extensive-reading
categories:
  - Journal Club
tags:
  - extensive-reading
---

## 泛读主题一(肿瘤分子演化相关进展)

### Title of article 1

Key Point:

- A
- B
- C

### Title of article 2

Key Point:

- A
- B
- C

## 泛读主题二(单细胞分析方法学相关进展)

### Title of article 1

Key Point:

- A e.g Homepage
- B e.g algorithm and model
- C e.g Samples

### Title of article 2

Key Point:

- A
- B
- C

该模板可以直接从这里下载。

技术笔记

如果是技术类笔记,你可以随意发挥标题,但是请至少应包括以下字段的内容,便于快速搜索:

---
title: Notes | Git handbook
author: Jianfeng Li
date: '2017-09-05'
slug: note-git-handbook
categories:
  - Notes
tags:
  - git
---

## 关键词

- [git](https://en.wikipedia.org/wiki/Git)
- handbook

定期的回顾和思考

多数人在很早之前应该听过艾宾浩斯遗忘曲线,之前大多数时候我是应用在记单词上,事实上,它是人类大脑对新事物遗忘规律,对我们学习任何新事物也都是具备指导作用的:

时间间隔 记忆量
刚记完 100%
20分钟后 58.2%
1小时后 44.2%
8-9小时后 35.8%
1天后 33.7%
2天后 27.8%
6天后 25.4%

从上面表格我们可以看出,人在学习一个新事物时,初期遗忘速度是很快的,但是越往后,我们忘掉的内容就越少,同样对于我们看过的文献和文档是一样的道理, 只有通过不断的总结和回顾,你所阅读的文献和文档内容才会被你真正吸收,从而真正帮助你更好的开展科学研究、解决实际问题。

图十 克服遗忘曲线(来源网络

我建议每周可以把之前一周记录下来的阅读笔记以及进行过思考的内容做一个系统、完整的记录,然后并在每一周结束时进行一个梳理和回顾,当积累到一定数量之后,再将笔记和思考记录进行归类并重新认识。

总结

我不是一个阅读能力很强的人,也尝试过各种各样的方法,最后我得出一个结论:不论阅读什么材料,思考、实践、总结是进行优质阅读的必备条件,就像我现在写的这篇博客,就是希望我能够通过阅读他人写的一些相关资料,总结出一些阅读时的关键点,为我阅读文献、文档提供一个参考指南。