文本

看看最近的文章

用组学数据理解癌症断点决定因素

Kseniia Cheloshkina

俄罗斯国立研究大学高等经济学院计算机科学学院生物信息学实验室

电子邮件:bhuvaneswari.bibleraaj@uhsm.nhs.uk

玛丽亚Poptsova

俄罗斯国立研究大学高等经济学院计算机科学学院生物信息学实验室

DOI: 10.15761 / ICST.1000333

文章
条信息
作者信息
图表和数据

在过去的20年里,癌症基因组的全基因组测序支持了点变异和结构变异的癌症突变异质性现象。除了全基因组测序项目外,还收集了许多下一代测序实验,包括组蛋白修饰和转录因子的ChIP-seq, DNase-seq, MeDIP-Seq, Hi-C等,用于数千个癌症基因组。由于机器学习算法能够考虑多个因素及其相互作用,并将它们按重要程度排序,因此机器学习方法成为一种有效的预测建模方法。机器学习模型在1Mb尺度上预测癌症点突变,并使用染色质、表观遗传因子和非b DNA结构作为预测因子,取得了良好的预测能力。然而,预测癌症断点似乎比预测点突变更困难。使用相同的特征,成功用于预测癌症点突变的机器学习模型在预测癌症断点方面无法实现高性能。然而,现有的模型表明,从组学实验中收集信息可以提高模型的预测能力。在这里,我们回顾了最先进的机器学习方法来预测癌症断点,并讨论目前对癌症断点形成决定因素的理解。

关键字

癌症断点,断点热点,基因组重排,机器学习,非b DNA结构,表观遗传学

癌症基因组分析的组学数据

大型国际联盟项目——癌症基因组图谱(TCGA)[1]、国际癌症基因组联盟(ICGC)[2]和ICGC/TCGA全基因组泛癌症分析(PCAWG)[3]项目执行、处理并公开了数千个全基因组下一代测序(NGS)实验。所有积累的数据都支持癌症基因组异质性现象[4-6],但许多研究旨在揭示癌症突变基因组格局的规律[3,7-10]。

与此同时,大量不同的全基因组注释数据,包括组蛋白修饰[11]、染色质可及性[11]、DNA甲基化[11]、转录因子结合位点[12]、非b DNA二级结构[13-16]和其他[17],为组学研究提供了宝贵的资料。将现代数据分析方法与组学数据相结合,将使研究人员有机会从不同角度(例如[18])观察癌症基因组,并更好地了解癌症基因组突变决定因素(图1)。

图1.整合组学数据分析有助于了解癌症突变决定因素

机器学习方法成为大数据时代的首选方法,癌症基因组学的大数据也不例外[19-21]。机器学习模型在基因组学中的作用不仅在于预测功能基因组元素,还在于揭示与感兴趣的基因组元素相关的因素[22-26]。机器学习算法可以使用异构因素作为输入,然后对预测因子的重要性进行排序,并揭示最有影响力的[27]。应用机器学习方法预测基因组区域有助于了解与该区域[28]相关的最影响因素。

在机器学习时代之前,通过关联和/或丰富/消耗显著性的统计检验,推断出因素与所研究现象的关联。机器学习方法能够揭示统计测试无法检测到的弱依赖关系[29]。

在癌症基因组学中,重要的任务之一是了解突变过程背后的因素和机制。下面我们将介绍最近的研究和最先进的机器学习方法,以预测癌症点突变和断点,并讨论预测癌症断点的挑战。

癌症点突变决定因素

癌症点突变的预测建模似乎比断点建模更有效。1Mb尺度的癌症突变密度机器学习模型,聚合了组蛋白修饰、CTCF结合位点、PolII结合位点、重组率、复制时间、核小体定位、基因密度和保守水平的数据,可以解释55%的突变方差[30]。特征重要性分析显示,与异染色质相关的组蛋白修饰H3K9me3可以解释40%的癌症点突变变异。考虑额外的特征只能使模型的预测能力提高15%。因此,机器学习方法(这里是线性回归)表明,基因组在异染色质和常染色质结构域的排列对突变率[30]有主要影响。

另一项研究使用细胞类型特异性表观基因组特征[31],用机器学习模型(这里是随机森林算法,它也擅长特征重要性分析)在1mb尺度上调查癌症点突变密度。作者表明,染色质可及性(由1 Mb尺度的DNase读取密度测量)、组蛋白修饰和复制时间一起可以解释癌症基因组中高达86%的点突变率方差。在这种情况下,机器学习模型展示了非常好的性能。特征重要性分析表明,与相应癌细胞的染色质特征相比,起源细胞的染色质特征是癌症突变谱的决定因素。该模型还表明,反向任务可以解决——突变密度谱可以用于检测癌症的起源细胞。

另一项突变密度的综合研究,同样是在1mb尺度上,包括基因表达、复制时间、异染色质(H3K9me3信号)和DNA错配修复状态(通过微卫星不稳定状态测量)[32]的数据。分析表明,DNA错配修复因子是导致这种疾病的基础

观察到点突变变异。作者表明,DNA错配修复失活后产生的突变不再像以前认为的那样在早期复制常染色质中富集。

在[33]中对212个胃癌基因组的非编码点突变和indels进行了综合分析。34个点突变热点显著富集在CTCF结合位点,提示染色质畴边界。CTCF结合位点重叠的突变热点显示染色体不稳定性[33]。

局部因素,如包裹在核小体周围的DNA,或与DNA结合的转录因子,也会影响突变率。局部因素的影响及其与DNA修复系统和/或诱变剂的相互作用在[34]中进行了回顾。

癌症断点决定因素

早期,癌症断点决定因素是通过统计富集/消耗和关联检验推断出来的。研究了断点附近存在的非b DNA结构- g -四链结构、三链结构、十字链结构、发夹结构和Z-DNA,已知易位中的11个基因含有非b DNA结构[35]。在涉及淋巴样癌重排的近70%的基因中,g -四重体的存在和断点区域之间发现了特别密切的联系。

对近70万个癌症断点的分析显示,g -四重体形成序列[36]的断点区域富集。与点突变相似,在1mb尺度上对特征的密度(即频率)进行分析。此外,对于富含四基团的断点热点,作者表明与低甲基化状态有关。

对癌症基因组中易位和缺失断点的综合统计分析证实了大型数据集(约2万个易位和4.6万个缺失)中断点与非b DNA结构的显著关联[37]。具体而言,重复序列在易位处出现频率较高

而poly-A位点更多地出现在删除断点处。

在[38]中研究了断点和易位的决定因素,包括非b DNA结构、重组激活基因、甲基化、DNA修复过程、转录、复制、核苷酸不足和染色质结构[38]。针对上述每个因素都提出了许多案例研究,总体而言,该研究支持多种因素及其相互作用对癌症断点形成的参与的观点。

对包含8种癌症类型和14600个结构突变的147个样本进行了DNA蛋白结合和开放染色质富集的统计分析。它基于457个ENCODE蛋白结合ChIP-seq实验,125个DNase I和24个FAIRE实验。研究表明,在断点附近,蛋白结合和染色质开放富集。在断点[39]附近200 kb范围内,染色质开放状态的影响是明显的。

紫外线损伤的实验研究表明,紫外线损伤的分布与恶性黑色素瘤[40]的突变率相似。作者绘制了紫外线诱导病变的全基因组图谱,断点分布分析显示,令人惊讶的是,在紫外线损伤区域,DNase-accessible开放染色质(常染色质)被耗尽,而核外围的异染色质则很脆弱。这些结果与闭合染色质状态[31]的点突变密度相关结果一致。

如前所述,使用组蛋白编码和染色质可及性的机器学习方法预测体细胞点突变密度的模型可以解释高达86%的突变密度方差。然而,用于预测断点密度的机器学习模型甚至无法达到相同预测能力的一半。

在[41]中实现了预测点突变和断点密度的机器学习方法。作者展示了机器学习算法(这里是线性回归和随机森林)的强大功能,可以使用不同的特征集(包括非b DNA结构、组蛋白标记和复制时间)作为组合集或单独集来预测突变密度。在预测点突变密度(500 kB区域)时,作者表明非b DNA结构密度可以解释37%(乳腺)到52%(恶性淋巴瘤)的点突变方差。表观遗传特征和复制时间使解释方差提高了10-15%,但基于表观遗传标记和非b DNA结构的联合预测因子建立的模型总是表现出最高的性能,根据癌症类型的不同,解释方差在43-76%的范围内。用相同的一组特征来预测断点密度并不那么成功。使用组合的特征集,模型解释的方差对所有癌症都不超过10%,乳腺癌除外18%。

液体癌和实体癌的机器学习模型(此处为线性回归)显示,断点优先出现在开放染色质和端端中心染色体[42]。该模型以染色质密度、基因密度和ctcf结合位点密度为特征。多元回归分析发现,只有染色质密度可以作为主要的统计显著预测因素。

22 344个结构变异的断点关联分析显示与基因丰富区域[43]有较强的关联。对复发性和非复发性染色体异常的单独分析表明,这种关联仍然非常显著。

在[46]中实现了由DSBcapture[44]和BLESS[45]方法生成的DSB断裂密度的机器学习预测方法。作者利用1 kb尺度的组蛋白标记密度、DNase-seq、DNA形状参数、CTCF和p63结合位点训练随机森林算法。令人惊讶的是,该模型获得了极高的预测能力,ROC AUC为0.97。该模型的高预测能力很可能可以用限制性内切酶EcoRV产生DSB的偏倚方法来解释。

另一项机器学习研究通过建立线性回归模型探索了癌症断点和CpG岛甲基化之间的关系。数据包括超过11万个DNA甲基化探针,其中有超过1.3万个与CpG岛相关的基因。结果发现,甲基化在±1 Mb区域[47]的断点附近发生改变。这里的建模揭示了断点对甲基组变化的影响。采用机器学习方法研究不同类型癌症[48]中茎环(或十字形)和四环对断点热点形成的不同影响。作者使用逻辑回归和随机森林算法来预测断点热点,并根据癌症类型估计每个变量的贡献。训练集包括近50万个断点,研究的主要结果是茎环和四环对断点的形成有不同的影响,这取决于癌症的类型。茎环似乎是血癌、脑癌、肝癌和前列腺癌的更重要的预测因子,而四环则是骨癌、乳腺癌、卵巢癌、胰腺癌和皮肤癌的更重要预测因子。对于整体癌症和子宫癌,联合模型表现出最高的性能。

总体而言,上述所有研究都从表观基因组学、转录组学、非b DNA结构等方面测试了不同的因素,但要么模型在大数据集上没有达到很高的预测能力,要么研究局限于少数因素,要么数据集不够大。本节中提到的所有预测因子都被发现丰富或与断点相关,但包括大量组学数据和大量癌症断点数据的综合建模尚未发表。

全基因组泛癌症分析(PCAWG)联盟的结果

PCAWG联盟对38种肿瘤类型的2658种癌症进行了综合分析,描述了结构变异[49]的模式和特征。所有记录在案的结构变体都被系统地归为两大类:复杂和简单。简单的重排包括以前众所周知的变体,如删除、倒置、重复和易位。然而,复杂的重排在早期并没有很好地描述,这些重排包括嗜色症(许多断点位于一个染色体区域)和染色体丛(几个染色体的断裂被错误地重新连接),局部n跳和模板插入周期。现在,有了所有这些类型的重排(因此,断点),分别研究每一类的断点决定因素是非常有趣的,特别是对于复杂的事件,如嗜色症和嗜色症。PCAWG联盟的另一个有趣发现是结构变异[49]的存在特征。同样,癌症点突变可以从有限数量突变过程[50]的差异作用中重建,结构突变也可以提供关于突变过程的见解。研究表明,串联复制和缺失的大小分布在不同的患者中是不同的,结构变异的频率和模式在不同的肿瘤类型[49]中是不同的。鉴定出16个结构变异特征,这为机器学习建模打开了广泛的任务行,以找到特征和突变过程之间的关联。

PCAWG联盟的一项研究专门致力于对褪色现象进行全面分析。结果表明,嗜铬症在多种癌症类型[51]中普遍存在,其发生率超过50%。该研究还证实了嗜色菌病的异质性,甚至比之前估计的还要高。

结论

机器学习方法可以聚合多个因素,真正有助于理解癌症断点决定因素。然而,没有一个预测模型能够达到癌症点突变预测模型的性能。目前,只有两组因素-组蛋白修饰和非b DNA结构被测试为大型数据集的预测因子。将组学实验中的其他组添加到机器学习方法中——例如转录因子的作用位点、染色质状态、CTCF结合位点、甲基化状态、染色质3D组织和其他因素——可能有助于发现更多或分层癌症断点形成的决定因素。来自PCAWG联盟的癌症结构变异综合分析报告为断点研究开辟了新的方向:使用聚合组学数据建立预测模型,并从结构突变特征中发现突变机制。

参考文献

  • 1.阿特拉斯公布。癌症基因组图谱(TCGA)。
  • 2.国际癌症基因组联盟,Hudson TJ, Anderson W, Artez A, Barker AD等(2010)国际癌症基因组计划网络。自然464: 993 - 998。[Crossref
  • 3.ICGC/TCGA全基因组泛癌分析联盟(2020)全基因组泛癌分析。自然578: 82 - 93。[Crossref
  • 4.Allison KH, Sledge GW(2014)异质性与癌症。肿瘤科(威利斯顿公园)28日:772 - 778。[Crossref
  • 5.杜吉利,索托里瓦·A,格雷厄姆·T,斯旺顿·C(2019)解决癌症的遗传异质性。Nat Rev Genet20: 404 - 416。[Crossref
  • 6.Ben-David U, Beroukhim R, Golub TR(2019)癌症模型的基因组进化:风险和机遇。Nat Rev癌症19日:97 - 109。[Crossref
  • 7.nick - zainal S, Davies H, Staaf J, Ramakrishna M, Glodzik D,等,(2016)560例乳腺癌全基因组序列的体细胞突变格局。自然534: 47-54。[Crossref
  • 8.Ha K, Kim HG, Lee H(2017)癌症进展早期染色质标记形状突变景观。NPJ基因医学2: 9。[Crossref
  • 9.Hoadley KA, Yau C, Hinoue T, Wolf DM, Lazar AJ等。(2018)细胞起源模式在33种癌症中10,000种肿瘤的分子分类中占主导地位。细胞173: 291 - 304。[Crossref
  • 10.黄明明,田武武,王晓明,等。(2020)人类癌症基因突变特征的研究进展。自然578: 94 - 101。[Crossref
  • 11.Bernstein BE, Stamatoyannopoulos JA, Costello JF, Ren B, Milosavljevic A,等(2010)NIH路线图表观基因组图谱联盟。生物科技Nat》28日:1045 - 1048。[Crossref
  • 12.ENCODE项目联盟(2004)ENCODE (DNA元素百科全书)项目。科学306: 636 - 640。[Crossref
  • 13.Hänsel-Hertsch R, Spiegel J, Marsico G, Tannahill D, Balasubramanian S(2018)通过染色质免疫沉淀和高通量测序内源性G-四联体DNA结构的全基因组定位。Nat Protoc13: 551 - 564。[Crossref
  • 14.黄玉春,黄玉春,黄玉春,等。(2014)哺乳动物细胞中g -四链体DNA的检测。核酸测定42: 860 - 869。[Crossref
  • 15.Shin SI, Ham S, Park J, Seo SH, Lim CH,等(2016)通过ChIP-Seq识别的z - dna形成位点与人类基因组中的活性转录区域相关。DNA Res23日:477 - 486。[Crossref
  • 16.Sentürk Cetin N, Kuo CC, Ribarska T, Li R, Costa IG等。(2019)细胞DNA的分离和全基因组特征:RNA三层结构。核酸测定47: 2306 - 2321。[Crossref
  • 17.Oki S, Ohta T, Shioi G, Hatanaka H, Ogasawara O等人(2018)ChIP-Atlas:由完全集成公共ChIP-seq数据提供支持的数据挖掘套件。EMBO代表19.[Crossref
  • 18.潘志伟,陈晓明,朱海涛,等。(2020)多变量组学数据的整合通路富集分析。Nat Commun11: 735。[Crossref
  • 19.Bender E(2015)生物医学中的大数据。自然527: S1。[Crossref
  • 20.Torcivia-Rodriguez J, Dingerdissen H, Chang TC, Mazumder R(2019)癌症相关基因组大数据存储库的入门。方法Mol Biol1878: 1-37。[Crossref
  • 21.孙勇,朱松,马凯,刘伟,岳勇等。(2019)基于基因组深度学习的12种癌症类型识别。Sci代表9: 17256。[Crossref
  • 22.Alipanahi B, Delong A, Weirauch MT, Frey BJ(2015)利用深度学习预测DNA-和RNAbinding蛋白的序列特异性。生物科技Nat》33: 831 - 838。[Crossref
  • 23.陈艳,李艳,Narayan R, Subramanian A,谢曦(2016)基于深度学习的基因表达推理。生物信息学32: 1832 - 1839。[Crossref
  • 24.Kelley DR, Snoek J, Rinn JL (2016) Basset:使用深度卷积神经网络学习可访问基因组的调控代码。基因组Res26日:990 - 999。[Crossref
  • 25.Li Y, Shi W, Wasserman WW(2018)基于监督深度学习方法的顺式调控区域全基因组预测。BMC生物信息学19日:202。[Crossref
  • 26.倪萍,苏智(2019)利用深度学习破解细胞分化的表观基因组密码。BMC基因组学20: 709。[Crossref
  • 27.Shein A, Zaikin A, Poptsova M(2019)使用基于序列和基于结构的机器学习模型识别人类基因组中3'端L1, Alu,处理过的假基因和mRNA干环。Sci代表9: 7211。[Crossref
  • 28.Lin H, Chen W, Anandakrishnan R, Plewczynski D(2015)机器学习方法在基因组学和蛋白质组学中的应用ScientificWorldJournal: 914780。[Crossref
  • 29.Min S, Lee B, Yoon S(2017)生物信息学中的深度学习。短暂Bioinform18: 851 - 869。[Crossref
  • 30.Schuster-Böckler B, Lehner B(2012)染色质组织是人类癌细胞区域突变率的主要影响因素。自然488: 504 - 507。[Crossref
  • 31.Polak P, karliic R, Koren A, Thurman R, Sandstrom R,等。(2015)细胞起源染色质组织形成癌症突变景观。自然518: 360 - 364。[Crossref
  • 32.Supek F, Lehner B(2015)差异DNA错配修复是人类基因组突变率变化的基础。自然521: 81 - 84。[Crossref
  • 33.郭亚,张敏敏,黄伟,黄文芳,邢敏等。(2018)胃肠道肿瘤中CTCF结合位点突变热点与染色体不稳定性。Nat Commun9: 1520。[Crossref
  • 34.Gonzalez-Perez A, Sabarinathan R, Lopez-Bigas N(2019)人类基因组突变格局的局部决定因素。细胞177: 101 - 114。[Crossref
  • 35王晓明,王晓明,王晓明,等(2012)肿瘤中染色体易位断点区g -四重体的形成及其易位性。基因组学100: 72 - 80。[Crossref
  • 36.陈晓明,王晓明,王晓明,等(2011)肿瘤基因组进化过程中DNA二级结构的研究进展。Nat Struct Mol生物学18: 950 - 955。[Crossref
  • 37.Bacolla A, Tainer JA, Vasquez KM, Cooper DN(2016)癌症基因组中的易位和缺失断点与潜在的非b dna形成序列相关。核酸Res 44: p. 5673-88。[Crossref
  • 38.Javadekar SM1, Raghavan SC(2015)断裂和修复:DNA断裂和染色体易位。2月J282: 2627 - 2645。[Crossref
  • 39.Grzeda KR, Royer-Bertrand B, Inaki K, Kim H, Hillmer AM等。(2014)功能性染色质特征与癌症结构突变的相关性。BMC基因组学15: 1013。[Crossref
  • 40.García-Nieto PE, Schwartz EK, King DA, Paulsen J, Collas P,等(2017)致癌物易感性受基因组结构调控并预测癌症突变。EMBO J36: 2829 - 2843。[Crossref
  • 41.Georgakopoulos-Soares I, Morganella S, Jain N, Hemberg M, Nik-Zainal S(2018)非b DNA基序产生的非规范二级结构是突变的决定因素。基因组Res28日:1264 - 1271。[Crossref
  • 42.林春春,陈志伟,陈志伟,等。(2018)染色体易位断点在常染色质和端端中心染色体中的优先发生。癌症(巴塞尔)10.[Crossref
  • 43.Mitelman F, Johansson B, Mertens F, Schyman T, Mandahl N(2019)癌症染色体断点聚集在基因丰富的基因组区域。基因染色体癌症58: 149 - 154。[Crossref
  • 44.Lensing SV, Marsico G, Hänsel-Hertsch R, Lam EY, Tannahill D,等。(2016)dsb捕获:DNA断裂的原位捕获和测序。Nat方法13: 855 - 857。[Crossref
  • 45.Crosetto N, Mitra A, Silva MJ, Bienko M, Dojer N,等。(2013)基于下一代测序的核苷酸分辨率DNA双链断裂图谱。Nat方法10: 361 - 365。[Crossref
  • 46.Mourad R, Ginalski K, Legube G, Cuvier O(2018)使用表观基因组标记或千碱基分辨率的DNA预测双链DNA断裂。基因组医学杂志19: 34。[Crossref
  • 47.张艳,杨玲,Kucherlapati M, Hadjipanayis A, Pantazi A等。(2019)体细胞结构变异对人类癌症DNA甲基化组的全球影响。基因组医学杂志20: 209。[Crossref
  • 48.Cheloshkina K, Poptsova M(2019)茎环和四丛结构对癌症断点形成的组织特异性影响。BMC癌症19日:434。[Crossref
  • 49.李艳,李志强,李志强,李志强,等。(2020)人类癌症基因组体细胞结构变异的研究进展。自然578: 112 - 121。[Crossref
  • 50 Petljak M, Alexandrov LB(2016)通过描述人类癌症的突变特征来理解突变。致癌作用37: 531 - 540。[Crossref
  • 51.Nat麝猫52: 331 - 341。[Crossref

编辑信息

主编

Hiroshi宫本茂
罗切斯特大学医学中心

文章类型

评论

出版的历史

收稿日期:2020年3月3日
录用日期:2020年3月20日
发布日期:2020年3月23日

版权

©2020 Cheloshkina K.这是一篇根据创作共用署名许可条款发布的开放获取文章,允许在任何媒介上不受限制地使用、分发和复制,前提是注明原作者和来源。

引用

Cheloshkina K, Poptsova M(2020)利用组学数据了解癌症断点决定因素。整合癌症科学与治疗7:DOI: 10.15761/ICST.1000333。

相应的作者

玛丽亚Poptsova

国立研究大学高等经济学院计算机科学系生物信息学实验室,俄罗斯莫斯科波克罗夫斯基大道11号,101000。

电子邮件:bhuvaneswari.bibleraaj@uhsm.nhs.uk

图1.整合组学数据分析有助于了解癌症突变决定因素