看看最近的文章

通过高性能计算集群实现精准医疗

Castrignano T

超级计算应用和创新部,SCAI,罗马,意大利

电子邮件:bhuvaneswari.bibleraaj@uhsm.nhs.uk

Parisi V

物理系,Sapienza Università di Roma, P.le A.Moro 5,00185,意大利罗马

Chillemi G

图西亚大学DIBAF生物、农业、食品和森林系统创新系,途经s.a Camillo de Lellis s.c,意大利维特博01100

国家研究委员会,生物膜,生物能学和分子生物技术研究所,意大利巴里

DOI: 10.15761 / JTS.1000268

文章
条信息
作者信息
数据与数据

摘要

高性能计算(HPC)在医学中的作用在过去的几年里大大增加,从基础研究转移到临床。随着下一代测序(NGS)技术的出现,人们通过不同的组学技术对人类健康的不同领域进行了研究。这些NGS平台以经济高效的方式广泛应用于人类健康问题的高通量分析,产生了大量的测序数据,推动了大数据领域的生物信息学研究。大规模测序分析的速度、准确性和可重复性使分子生物学知识得以转移到精准医学中。此外,分子动力学(MD)在辅助基因组研究方面发挥了重要作用。癌症的测序研究已经能够检测和表征驱动肿瘤发生的突变基因。作为一种补充方法,从生物物理学的角度来看,在HPC架构上执行的MD模拟已经允许研究病理突变对激活分子机制的作用。

用于转译研究的大数据下一代测序

基因组学研究的目标是识别与疾病、治疗反应或未来患者预后相关的遗传变异。全基因组测序(WGS)是一种基因组学技术,可以检测整个基因组中所有类型的遗传变异(单核苷酸和缺失/插入多态性)。这一与群体遗传变异图谱相结合的强大特征是识别致病变异的非常强大和有效的工具,从而使诊断、遗传咨询与治疗决策相结合成为可能。2015年,Taylor等在常规临床实践中广泛应用全基因组测序作为诊断遗传疾病的工具,对500例[1]患者(包括156例独立病例)进行了诊断。他们在21%的病例(33/156)中确定了至少一种具有高致病性证据的变异,使用几种分析策略提高了变异呼叫和检出率的准确性。更一般地说,WGS提供了疾病驱动突变和突变特征的整体图景。已经开发了几种HPC生物信息管道来表征和确定遗传变异的优先级[2-3]。

全外显子组测序(WES)是一种对基因组中所有蛋白质编码基因(也称为外显子组)进行测序的基因组技术[4-5]。该方法已被应用于癌症和罕见疾病中,既能识别编码区可操作的体细胞变异,又能有效检测孟德尔疾病变异;WES被广泛用于诊断新疾病和发现已知疾病表型[6]的新致病突变。WES也被用于诊断无所有症状的年轻患者[7]和产前诊断[8]。此外,检测致病突变可以提示如何修改治疗方法,防止更有创性的检查,确认诊断,并打开临床试验的大门。

靶向外显子组测序(TES)是一种基因组技术,对基因子集或基因组区域进行分离和测序。这项技术使研究人员能够将数据分析重点放在感兴趣的特定基因组范围上,并使测序覆盖范围更高。通过这种方式,特定的基因组[9-10]成为检测已知或怀疑与感兴趣疾病相关的基因或基因组区域突变的宝贵工具;面板可以定制设计来放大感兴趣的区域。TES为癌症基因组的分析提供了一种更加敏感的方法。它在短时间内消除了WES产生的大部分背景噪声,因为它以较低的成本提供了更高的覆盖率。这一特性使TES成为转化医学和临床设置的理想工具。

RNA测序(RNA- seq)是一种能够揭示生物样品在特定时刻和特定实验条件下RNA的存在和数量的测序技术。RNA-Seq用于分析持续变化的细胞转录组。它已被广泛应用于患者,用于识别许多生物过程和疾病的分子基础,包括癌症[11-12]。特别是,转录组范围内的基因表达谱提供了更好的理解预后和药物敏感性的分子机制。它涉及表达过程的几个方面(例如,表达基因和转录物的鉴定和量化,选择性剪接和多聚腺苷酸化,融合基因和反式剪接,转录后事件等)[13-17]。

癌症基因组图谱联盟[18]提供了对存储、编目和查询癌症基因组组学数据的大数据安全存储库的访问。透过TCGA数据入口(https://tcga-data.nci.nih.gov)癌症基因组序列、校准、突变信息和癌症基因组数据集中的分子变化,如几种癌症类型的新畸变,现已向科学界提供。另外两个可用的癌症大数据资源是癌症细胞系百科全书[19]和癌症药物敏感性基因组学[20]。由于转化对精准医疗的直接影响,数以百计的癌症细胞系的基因组生物标记物和药物敏感性之间的联系可供患者使用。特别是针对CCLE,从CCLE知识库下载的935个成对端RNA-seq实验已经广泛进行了大数据HPC分析,旨在解决人类恶性肿瘤[21]中新的假定的细胞系特异性基因融合事件。几种基因融合检测算法已应用于CCLE数据集,以提供在网上一个可靠的共识结果集约1700预测了所有人类恶性细胞系的新融合基因候选基因。这些结果可在基因融合数据库门户网站(Ligea -http://hpc-bioinformatics.cineca.it/fusion)可以代表在湿实验室中检测新的癌症生物标志物和特定药物靶点的起点。在(图1)中显示了Ligea门户的截图组合。

图1所示。Ligea Portal截图:a)“按细胞系搜索”表单允许通过指示特定的细胞系名称导航数据库;b)报告每种算法(Fusioncatcher、EricScript、Tophat fusion、Jaffa)的基因融合预测结果的对应结果表;C)点击浅蓝色按钮(对应于fusioncatcher算法结果),弹出窗口显示假设检测到的基因融合事件的详细信息;d)维恩图显示了四种算法识别的假定基因融合事件的交集;E)来自同一疾病的不同细胞系的数量。d)和e)面板都可以在Ligea的主页上可视化。

正常人(GTEx)、肿瘤(TCGA)和癌细胞系(CCLE)组织的人类基因表达谱的可用性为全球基因表达结构提供了第一张图片。然而,功能肿瘤分子图谱的复杂性给将大数据生物信息库中包含的信息转化为新的癌症药物和分子诊断带来了巨大挑战。HPC在生物信息学和计算生物学中的作用对于在合理的时间内实现这些目标是必不可少的。

ChIP-seq是一种结合了染色质免疫沉淀(ChIP)和大规模并行DNA测序的测序技术。它是一种识别转录因子和其他蛋白质的全基因组DNA结合位点的有力方法。此外,它可以用于精确定位任何感兴趣的蛋白质的全局结合位点[22-24]。

表观遗传改变是独立于DNA基因序列的基因表达修饰。它们被认为对生物体的正常和疾病状态都有很大的影响。特别是,它们可能影响表观遗传和表观致癌,或任何其他与有机体改变有关的疾病。修饰基因表达的主要表观遗传机制有:DNA甲基化[25]、组蛋白修饰[26]、染色质重塑和作为调控分子[27]的microRNAs。表观遗传学变化为基因组和环境条件之间的相互作用提供了分子分析[28];它们负责调节正常和疾病表型之间行为不同的特定基因表达网络。对于胰导管腺癌(PDAC)亚型,结合Chip-seq和RNAseq数据的表观基因组学研究可以预测PADC[29]某些亚型的侵袭性和生存率,从而提供潜在的新标志物和治疗靶点。

宏基因组学是一种测序技术,可以研究直接从环境样本中回收的遗传物质。它已被广泛应用于表征病毒基因组的异质性,在临床样本的微生物群落中没有体外复制偏差。高通量焦磷酸测序已被用于直接在鼻咽拭子中检测和表征2009年大流行性甲型H1N1流感病毒的微生物群落[30-33]。

目前,宏基因组研究领域中另一个转化临床领域正在发展:对影响个体健康和疾病的人类微生物组的研究。它在免疫系统中扮演着重要角色,因为研究人员认为,免疫反应与人一生中微生物群落的分布密切相关。

致病性突变的结构特征

历史上,HPC在医学中的作用甚至是NGS革命的先例,从90年代开始,精确的可用性在网上生物大分子模拟模型(首先是水环境中的蛋白质,然后是核酸和膜蛋白)。

特别是高性能计算,通过分子动力学模拟表征癌症相关蛋白,已被广泛应用于癌症研究[35-38];评估体细胞突变或抗癌药物活性的影响[39-42]。MD也被应用于病毒蛋白的表征[43-44]。

基因组信息的日益可用性,特别是通过NGS和基于微阵列的平台获得的非同义snp,增加了对在网上能够在原子水平上提供突变蛋白结构和动态变化信息的方法。MD模拟通常由其他补充方法进行补充,如同源建模、分子对接和药物设计。这些方法的应用已经成为人类基因组研究的标准工具,因为它们被证明能够合理解释致病突变的影响[45-47]。

特别是MD模拟,可以解决蛋白质和核酸的结构特性和远程动态的具体问题,从而可以对临床数据提出合理的假设[48-51]。(图2)临床相关微管蛋白辅助因子D (TBCD)变异的位置和MD模拟结果显示Ala586Val临床观察替代引起的结构扰动。

图2。(a)微管蛋白辅助因子D (TBCD)中与疾病相关的氨基酸替换的位置。45-46中描述的三种变体的侧链用粉色突出显示。(b) Ala586是位于α螺旋区的埋藏残体。(c)为了研究由Ala586Val取代引起的结构扰动而进行的MD模拟发现了这些螺旋的局部重排,导致了它们相对方向的大量重排。

鸣谢

本研究得到:意大利教育部“优秀部门-2018”项目(Dipartimenti di Eccellenza)、大学与研究学院- miur、dibaf -部门项目“景观4.0 -食品、福祉和环境;“2017年的意大利里卡酒博览会”,罗马大学,萨皮恩扎。

参考文献

  1. Taylor等(2015)影响广泛疾病的临床基因组测序成功的因素。Nat麝猫47: 717 - 726。(Crossref)
  2. Causey JL, Ashby C, Walker K,等人(2018)dna: dna序列数据分析的管道。科学报告,第8卷,文章号6793.
  3. Chiara M, Gioiosa S, Chillemi G, D'Antonio M, Flati T,等人(2018)CoVaCS:共识变呼叫系统。BMC基因组学19日:120。
  4. D'Antonio M, D'Onorio De Meo P, Paoletti D, Elmi B, Pallocca M等人(2013)WEP:全外显子组数据的高性能分析管道。BMC生物信息学14补充7:S11。(Crossref)
  5. Neri M, Bovolenta M, Scotton C, De Grandis D, Castrignanò T,等(2012)新候选基因筛选的全外显子组测序作为发现帕金森和失调隐性家族基因的工具。神经肌肉疾病22日:810。
  6. de light J, Willemsen MH, van Bon BW, Kleefstra T, Yntema HG,等(2012)重度智力残疾患者诊断性外显子组测序。N英语J医学367: 1921 - 1929。(Crossref)
  7. 李志刚,李志刚,李志刚,等(2014)。全外显子组测序在常规临床实践中的有用性。麝猫地中海16: 922 - 931。
  8. 徐勇,肖斌,蒋卫涛,王磊,Gen HQ,等(2014)。通过靶向外显子组测序在PKHD1中发现的一个新突变:指导ARPKD家族的产前诊断。基因551: 33-38。
  9. D 'Antonio M, D 'Onorio De Meo P, Castrignanò T, Erbacci G, Pallocca M,等(2014)ODESSA:超深靶向外显子组测序数据的高性能分析管道。高性能计算与仿真国际会议608 - 615。
  10. Miller EM, Patterson NE, Zechmeister JM等(2017)。开发和验证一种优于全外显子组测序的靶向下一代DNA测序面板,用于临床相关遗传变异的识别。Oncotarget8:102033 - 102045。(Crossref)
  11. Byron SA, Van Keuren-Jensen KR, Engelthaler DM, Carpten JD, Craig DW(2016)将RNA测序转化为临床诊断:机遇和挑战。Nat牧师麝猫17: 257 - 271。(Crossref)
  12. lik M, Chinnaiyan AM,等(2018)临床翻译节点下的癌症转录组分析CieÅ ?Nat牧师麝猫19日:93 - 109。(Crossref)
  13. D'Antonio M, D'Onorio De Meo P, Pallocca M, Picardi E, D'Erchia AM等人(2015)RAP: RNA-Seq分析管道,一种新的基于云计算的NGS web应用。BMC基因组学16: S3。(Crossref)
  14. Picardi E1, D'Antonio M, Carrabino D, Castrignanò T, Pesole G (2011) ExpEdit:探索RNA- seq实验中人类RNA编辑的网络服务器。生物信息学27日:1311 - 1312。(Crossref)
  15. 博利斯·M, Garattini E, Paroni G, Zanetti A, Kurosaki M,等(2017)。网络引导模型允许肿瘤类型独立预测对全反式维甲酸的敏感性。安杂志28日:611 - 621。
  16. Scotton C, Bovolenta M, Schwartz E等(2016)。深层RNA分析发现Clock和分子时钟基因是VI型胶原肌病的病理生理特征。J细胞科学.129: 1671 - 84。
  17. Silvestri V, Zelli V, Valentini V, et al.(2017)全外显子组测序和靶向基因测序为PALB2作为男性乳腺癌易感基因的作用提供了新的见解。癌症123: 210 - 218。
  18. 癌症基因组图谱研究网络,Weinstein JN等(2013)癌症基因组图谱泛癌症分析项目。Nat麝猫45: 1113 - 1120。(Crossref)
  19. Barretina J, Caponigro G, Stransky N, Venkatesan K, Margolin AA,等(2012)癌症细胞系百科全书使抗癌药物敏感性的预测建模。自然483: 603 - 607。(Crossref)
  20. Garnett MJ, Edelman EJ, Heidorn SJ, Greenman CD, Dastur A,等(2012)癌症细胞药物敏感性基因组标记的系统鉴定。自然483: 570 - 575。(Crossref)
  21. Gioiosa S, Bolis M, Flati T, Massini A, Garattini E,等(2018)海量NGS数据分析揭示了人类细胞系中数百个潜在的新基因融合。Gigascience
  22. Desantis A, Bruno T, Catena V, De Nicola F, Goeman F, et . (2015) che -1诱导的mTOR通路抑制使应激诱导自噬。EMBO J34: 1214 - 1230。(Crossref)
  23. Goeman F, De Nicola F, D'Onorio De Meo P, Pallocca M, Elmi B等人(2014)通过全基因组转录谱分析VDR主要靶点。类固醇生物化学分子生物学143: 348 - 356。(Crossref)
  24. Botti E, Spallone G, Moretti F, Marinari B, Pinetti V,等(2011)发育因子IRF6在鳞状细胞癌中表现出抑癌活性。美国国家科学研究院108: 13710 - 13715。(Crossref)
  25. 王晓燕,王晓燕,王晓燕(2008)人类癌症基因和表观遗传变异的原因和后果。咕咕叫基因组学9: 394 - 408。(Crossref)
  26. Mikkelsen TS, Ku M, Jaffe DB, Issac B, Lieberman E, et al.(2007)多能性和谱系承诺细胞染色质状态的全基因组图谱。自然448: 553 - 560。(Crossref)
  27. Choi SW, Friso S(2010)表观遗传学:营养和健康之间的新桥梁。阿德减轻分裂到8 - 16个。1:(Crossref)
  28. Nebbioso A, Tambaro FP, Dell' avversana C, Altucci L(2018)癌症表观遗传学:向前发展。公共科学图书馆麝猫14: e1007362。(Crossref)
  29. 不同的表观遗传景观是胰腺癌亚型病理生物学的基础。自然通讯9: 1978。
  30. Bartolini B, Chillemi G, Abbate I, Bruselles A, Rozera G,等(2011)鼻咽拭子中甲型H1N1流感大流行基因组的高通量磷酸测序组装和表征。新Microbiol34: 391 - 377。
  31. Rozera G,(2009)通过超深焦磷酸测序在原病毒中检测到的HIV-1少数变种可能具有完全复制能力艾滋病23日:2541 - 2543。
  32. Castilletti C, Carletti F Gruber CE, Bordi L, Lalle E(2015)意大利从一名从塞拉利昂遣返的医护人员身上分离出的首个埃博拉病毒的分子特征。基因组的公告18: 3。(Crossref)
  33. Capobianchi MR, Gruber CE, Carletti F, Meschi S, Castilletti C, et al.(2015) 2015年2月塞拉利昂阿伯丁渔民社区爆发埃博拉病毒的分子特征。基因组的公告3.(Crossref)
  34. Palm N.W, de Zoete m.r和A Flavell(2015)。免疫-微生物群在健康和疾病中的相互作用。临床免疫学159: 122 - 127。(Crossref)
  35. Chillemi G, Castrignanò T, Desideri A (2001) dna -人拓扑异构酶I共价复合物的结构和水化作用。Biophys J81: 490 - 500。(Crossref)
  36. Chillemi G, Davidovich P, D'Abramo M, Mametnabiev T, Garabadzhiu AV等(2013)p53全长单体的分子动力学。细胞周期12: 3098 - 3108。(Crossref)
  37. D'Annessa I, Coletta A, Sutthibutpong T, Mitchell J, Chillemi G等(2014)模拟DNA拓扑异构酶1B与超卷曲DNA结合,揭示了酶的灵活性模式和二级蛋白质-DNA结合位点的变化。核酸Res42: 9304 - 9312。(Crossref)
  38. Capranico G, Marinello J, Chillemi G (2017) I型DNA拓扑异构酶。J地中海化学60: 2169 - 2192。(Crossref)
  39. Tesauro C, Fiorani P, D'annessa I, Chillemi G, Turchi G, et al.(2010)从植物Bituminaria bituminosa中提取的天然化合物Erybraedin C可以抑制人类拓扑异构酶I的裂解和宗教活性。生化J425: 531 - 539。
  40. Mancini G, D'Annessa I, Coletta A, Sanna N, Chillemi G,等(2010)抗癌药物拓扑替康对人拓扑异构酶I - DNA复合体的结构和动力学影响。《公共科学图书馆•综合》5: e10934。(Crossref)
  41. Mancini G, D'Annessa I, Coletta A, Chillemi G, Pommier Y,等人(2012)将吲哚诺异喹啉与拓扑异构酶- dna复合体结合可降低连接子迁移率并加强蛋白质- dna相互作用。《公共科学图书馆•综合》7: e51354(Crossref)
  42. 桑娜N, Chillemi G, Gontrani L,大人物,曼奇尼G, et al。(2009)紫外可见光谱的抗癌campothecin家庭药物在水溶液:特定光谱签名瓦解的计算和实验研究相结合。J物理化学B113: 5369 - 5375。
  43. Chandramouli B, Chillemi G, Desideri A(2014)三聚体环境中V3环的结构动力学,gp120-CD4三聚体模拟物的分子动力学研究。J结构生物学观点》186: 132 - 140。(Crossref)
  44. Chandramouli B, Chillemi G, Abbate I, Capobianchi MR, Rozera G等(2012)协同受体识别中V3环灵活性和净电荷的重要性。HIV gp120分子动力学研究。生物生物结构动力学杂志29日:879 - 891。
  45. D'Annessa I, Tesauro C, Fiorani P, Chillemi G, Castelli S,等(2012)灵活性在蛋白质- dna -药物识别中的作用:asp677gally - val703ile拓扑异构酶突变体对喜树碱过敏的案例。J氨基酸2012: 206083。(Crossref)
  46. Fiorani P, Tesauro C, Mancini G, Chillemi G, D'Annessa I,等人(2009)通过Lys681Ala突变体的实验和模拟表征,证明了连接子结构域对人类拓扑异构酶I催化活性的关键作用。核酸Res37: 6849 - 6858。
  47. Biagini T, Chillemi G, Mazzoccoli G, Grottesi A, Fusilli C等(2017)基因组研究的分子动力学配方。短暂Bioinform18.(Crossref)
  48. pode - shaked B, Barash H, Ziv L, Gripp KW, Flex E,等。(2017)TBCD双等位基因变异引起的小头畸形、顽固性癫痫和发育迟缓:一种新的伴侣介导的小管病的进一步描述。中国麝猫.91(5): 725 - 738。(Crossref)
  49. Flex E, Niceta M, Cecchetti S, Thiffault I, Au MG, et al. (2016) TBCD中编码微管蛋白折叠辅助因子D的双等位基因突变,扰乱微管动力学并导致早发性脑病。我是热内吗99: 962 - 973。(Crossref)
  50. Motta M, Chillemi G, Fodale V, Cecchetti S, Coppola S. (2016) SHOC2亚细胞穿梭需要KEKE基序丰富区和n端富含亮氨酸重复域,以及对ERK信号的影响。人类分子遗传学25日:3824 - 3835(Crossref)
  51. Dionisi-Vici C, Shteyer E, Niceta M, Rizzo C, pode - shakeb,等(2016)。扩大甘油-3磷酸脱氢酶1缺乏症的分子多样性和相关表型。继承Metab Dis39689 - 39695。

编辑信息

主编

特里Lichtor
Tsuyoshi Hirata
Shinya美津浓
Giacomo柯拉

文章类型

迷你回顾

出版的历史

收稿日期:2018年7月03日
录用日期:2018年7月09日
发布日期:2018年7月11日

版权

©2018 Castrignano T.这是一篇开放获取的文章,根据创作共用署名许可条款发布,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。

引用

Castrignano T, Parisi V, Chillemi G(2018)通过高性能计算集群实现精准医疗。J . transscience 5: DOI: 10.15761/JTS.1000268

相应的作者

iziana Castrignano

超级计算应用与创新部,SCAI,罗马,意大利

电子邮件:bhuvaneswari.bibleraaj@uhsm.nhs.uk

图1所示。Ligea Portal截图:a)“按细胞系搜索”表单允许通过指示特定的细胞系名称导航数据库;b)报告每种算法(Fusioncatcher、EricScript、Tophat fusion、Jaffa)的基因融合预测结果的对应结果表;C)点击浅蓝色按钮(对应于fusioncatcher算法结果),弹出窗口显示假设检测到的基因融合事件的详细信息;d)维恩图显示了四种算法识别的假定基因融合事件的交集;E)来自同一疾病的不同细胞系的数量。d)和e)面板都可以在Ligea的主页上可视化。

图2。(a)微管蛋白辅助因子D (TBCD)中与疾病相关的氨基酸替换的位置。45-46中描述的三种变体的侧链用粉色突出显示。(b) Ala586是位于α螺旋区的埋藏残体。(c)为了研究由Ala586Val取代引起的结构扰动而进行的MD模拟发现了这些螺旋的局部重排,导致了它们相对方向的大量重排。