肿瘤驱动事件识别算法
Contents
简介

“Comparison of algorithms for the detection of cancer drivers at subgene resolution”
这是一篇肿瘤生物学相关的文章,主要内容是比较了目前主要的肿瘤Driver事件识别算法,2017年发表于Nature Method。
要点:
- 没有决定哪一种算法最好,而是重点讨论了不同算法之间的差异,供用户参考选择
- 介绍了如何整合其他数据进行突变数据的深度解读
- 讨论了突变簇(有些基因可能更容易同时发生变异)对肿瘤生物学的一些新启示:更加微妙和连续
- 目前识别的人类蛋白质结构大约6100种,通过一些算法(如相似性,同源建模),可以识别的蛋白质结构可以扩展到13000种
目的:
- 读这篇文章的时候并不是想关注具体的算法设计,而是想知道现在有哪些driver事件、检测算法,以及各自的局限和优势。
学到的词汇
基础英语
- in favor of 赞成,以取代
- nuanced 有细微差别,微妙
- rationale 基本原理
- latent 潜在的,休眠的
- dubbed 配音; 给…起绰号( dub的过去式和过去分词 ); 把…称为; 复制;
专业英语
- cancer-driver
- average background mutation rate
- subgene-resolution algorithms
- driver and passenger genes (一种获得选择优势,一种产生特定类型的肿瘤)
- nonrandom distribution of mutations within proteins (热点突变、特定结构域)
- heterogeneous disease
- driver–passenger paradigm (一种疾病异质性假说,认为那些高频的变异是driver, 低频的一些变异是passenger-没那么重要)
- individual positions in the protein up to whole genes or pathways
- subgene level (同一基因的不同突变导致不同的表型)
- strengths and weaknesses based on their results
- different assumptions and technical choices of each method influence their results
- primary sequence (一级结构)
- 3D protein structures
- defined protein regions (如结构域、磷酸化位点、相互作用区)
- post-translational modification sites
- familial melanoma 家族性黑色素瘤
- variants of unknown significance (VUS)
- a continuum of cancer-promoting mutations
- mini-drivers: 参考文献-The mini-driver model of polygenic cancer evolution, 一组mini-drivers可以构成一个driver事件
主要知识点
- subgene driver-detection algorithms的主要目标:在肿瘤基因组中识别不是随机发生的那些突变簇
- 识别算法的分类(根据是否看高级结构、是否需要定义的一些区间分为四类):
- Type I de novo linear clusters
- Type II de novo three-dimensional clusters (应用于3D结构已知的或者结构可以被很可信的预测的)
- Type III linear externally defined regions (应用于蛋白质功能区已知,似乎这一种目前应用最广泛)
- Type IV three-dimensional externally defined regions (目前只有e-Driver3D和CLUMPS的一个模块),这一类型将最大程度的利用已有的知识
- rely on whole-gene analysis (OncodriveFM and MutSigCV), 与sub-gene概念相对
- Type I: Hotspot, NMC, Oncodrive,CLUST,MutSig-CL and iSIMPRe
- Type II: iPAC, GraphPAC, SpacePAC and CLUMPS
- Type III: e-Driver, ActiveDriver and LowMACA
- Type IV: e-Driver3D
- Structure-based methods have high precision but low recall
- Subgene algorithms are more likely to detect oncogenes
- Subgene methods identify new roles for known cancer genes
- 通过生殖系突变起作用的基因(CDK4,家族性黑素瘤)
- 体细胞突变会和生殖系变异有关联 (R24L,黑素瘤)
- 作者的结果支持 “Oncogene会更容易发生突变,Tumor suppressor (TSG)更容易发生丧失功能的突变”(有一篇文献对这个观点提出质疑:Comprehensive assessment of cancer missense mutation clustering in protein structures. Proc. Natl. Acad. Sci. USA. 2015)
- EGFR突变的位置可以影响EGFR的表达量和磷酸化水平
- 研究重要driver基因不同突变起到的作用是一个重要的研究方向
- Identification of significantly mutated regions across cancer types highlights a rich landscape of functional molecular alterations (一篇扩展阅读,非编码区driver识别 2016-NG)
- ELIXIR data warehouse
总结
本篇文章主要介绍了可以用于识别肿瘤driver事件的算法(主要分为四类),并且介绍了各类算法之间的一些差异和各自的优势和局限性
Type I 适用范围最广,只依赖于一维序列,统计模型等,Type IV需要的先验知识最多(如高级结构域、各类保守区、功能域、蛋白质相互作用区域等等),可以应用的基因数量有限(也反应出了解析蛋白质结构功能的重要性)。
对于肿瘤driver事件检测我觉得应该是一个系统工程,不能只靠某一维度或者是单一类型的算法(说不定肿瘤也会进化(非分子演化),不同时期,不同人群出现新的基因异常,情况就更复杂了)。
看完这篇文章之后,我对于肿瘤生物学又有了些不同的认识:
首先,使细胞获得选择性优势的基因是有限的,这部分基因在不同肿瘤中突变频率都是比较高的。通过大规模测序,发现那些高重现事件相对容易,如基因突变、融合基因(当然,我觉得不能只看突变频率,当达到一定量样本时,它们可能就是某一个亚型)。
然后,基因突变一定是要和其他数据相结合,如融合基因、CNV、染色体重排、基因表达量、基因功能、主要结构域、受哪些基因调控、调控哪些基因等,如果是单单看基因突变在人群中的频率的处理过于简单化。
最后,肿瘤的发生往往伴随的是一个基因表达网络的变化,同时,一系列携带有不同分子标志物的细胞通过协同作用巩固“利益共同体”(某些细胞可以负责产生土壤-肿瘤微环境,来保护肿瘤干细胞进行疯狂增殖以及产生耐药性)。
主图一览




附录
论文原文:https://www.nature.com/nmeth/journal/v14/n8/full/nmeth.4364.html
Author Jianfeng Li
Markdown The Markdown version »