看看最近的文章

随机行走的非线性分析:分析核酸序列的工具

Bianciardi G

锡耶纳大学医学生物技术系,Via delle scott 6,53100,意大利锡耶纳

电子邮件:giorgio.bianciardi@unisi.it

Borruso L

意大利波曾/博尔扎诺自由大学科学与技术学院

DOI: 10.15761 / FGNAMB.1000102

文章
条信息
作者信息
图表和数据

摘要

我们进行了计算机生成的随机序列与tRNAs核苷酸序列的比较细菌用随机游走表示。tRNA基因的核苷酸序列数据来自基因组研究所(TIGR)和GeneBank文库。随机序列数据(白噪声)由Press和Teukolsky的算法获得。核苷酸序列的随机行走是通过让轨道在四个方向(下、左、右、上)中的一个方向行走一个单位步来获得的,这取决于序列中的下一个碱基(a、C、G和T),以及计算到原点的距离。本文介绍了用于执行分析的Visual Basic例程。相对Lempel-Ziv复杂度。核苷酸序列和计算机生成的随机数据的熵(正Lyapunov指数的和)和赫斯特指数在随机行走的距离上进行评估。我们的数据表明,从非线性参数得到的值细菌均低于随机生成序列的值(p<0.01, p<0.05, p<0.01),说明tRNA序列比纯解构的随机数据更有序,具有“记忆”。观察到的与纯随机性的偏差应该是由于某些限制,如生物大分子的二级结构和/或由重复亚基引起的该大分子的特殊起源。这些数据表明,进化更早地选择了非随机的“字母”:有序和随机在生命的起源时就存在了。我们的方法,在这里提出和描述,提供了一个有效的工具来评估数量的秩序/无序的核酸序列的初级结构。

关键字

随机游走,tRNA,非线性分析,基因组序列

简介

数十亿年前,根据基因[1]的外显子理论,小RNA被翻译成15-20个氨基酸的多肽:编码RNA发夹结构的前trnas的小基因。两个相等的RNA发夹结构的二聚化可能导致了tRNA分子十字形结构的形成:tRNA反映了那个时代的原始基因。原核细胞生活在最早的时间(35亿年前):这些微生物在其tRNAs中保留了祖先的特征[2,3]。为了验证原始信息聚合物(tRNAs)的核苷酸序列可能不是随机选择的假设,我们引入了计算机生成的随机序列与细菌基因组中存在的tRNAs核苷酸序列的比较,该比较基于核酸序列的随机行走描述和从原点到距离的非线性方法的分析。

方法

核苷酸序列

细菌非内含子trna的核苷酸序列来自GenBank文库[http://www.ncbi.nlm.nih.gov/genbank].五种tRNA (tRNA-gly, tRNA-val, tRNA-glu, tRNA-arg, tRNA-ala)的50个序列,已知最古老的tRNA,收集自10个细菌粉螨,芽孢杆菌,伯克霍尔德菌,嗜盐杆菌,梭状芽孢杆菌,耐球菌,埃利希菌,耐杆菌,磁球菌mc -1,葡萄球菌)进行分析。

随机数据

Press和Teukolsky[4]的算法获得随机数据(白噪声),获得他们的轨道行走,在单位区间(0到1)上生成均匀随机分布的数据点。基于Hamori & Ruskin和Mizrahi & Ninio[5,6]的图形化方法,我们用本文第一作者用Visual Basic语言开发的软件分析了非内含子trna的核苷酸序列和计算机生成的随机数据,将其描述为随机漫步[7](图1和图2)。

随机漫步

根据序列中的下一个碱基(a、C、G和T)以及与原点的距离计算,让轨道沿四个方向(下、左、右和上)之一走一个单位步,从而获得核苷酸序列的随机行走(图1)。

随机游走中的核苷酸序列转换

图1所示。Visual Basic子例程:tRNA随机行走(“轨道”,为每个基收集到原点的距离)。计算核苷酸序列数据的碱基比RT (trna.txt)

为了获得随机数据的随机游走,将序列分为4个区间,区间内的字母分别为A、C、G、T(图2),从原点到随机游走的距离(图1)。计算50个随机序列(长度n = 80)。

在随机核苷酸序列中转换随机数据

图2。Visual Basic子程序:将一串随机数据转换为随机核苷酸序列。

非线性参数

相对LZ复杂度和熵(正Lyapunov指数的和),已经计算(混沌数据分析仪Pro v. 2.0[8])从随机行走上计算的距离。

相对LZ复杂度,LZ:相对LZ复杂度是时间序列算法复杂度的度量。根据Kaspar and Schuster算法[9],根据每个数据点的值是否小于或大于一组数据点的中值,将每个数据点转换为单个二进制数字。

白噪声(一种纯随机信号,在物理系统中很常见,在信号的所有分量频率上表现出相同的功率),其LZ值接近1.0。粉色噪声(闪烁噪声或1/f噪声),功率随频率增加而减小,LZ值相对较低;它在生物系统中很常见(如心率)。带有10%高斯白噪声的正弦函数产生一个接近于零的LZ值。本文中应用的计算LZ的算法将其转换为一个二进制数字,表示该值是否小于或大于此类数据点集的中值。

熵,凯西:这里选择的熵指数[10]是一个数据集中无序的度量,并计算为正李雅普诺夫指数的和。

随机性由数值上的高熵值表示。像正弦函数这样的有序级数显示出接近0的值。

赫斯特指数H:赫斯特指数是每个数据点的均方根位移随时间变化的斜率。白噪声的H值等于0。如果H≠0.5,则相关性存在,噪声被“着色”,过程表现出“记忆”:如果指数大于0.5,则发生持久性(过去的趋势在统计上将在未来持续存在,参见正弦函数),反之,如果H小于0.5,则发生反持久性(过去的趋势在未来倾向于逆转,例如粉红色噪声和心率等生物信号)。对于布朗运动,一个随机过程中,平均而言,每个点从其初始条件移动的量与时间的平方根成正比,赫斯特指数显示一个接近0.5(无记忆)[11]的值。

统计测试

采用Mann-Whitney U检验来确定两组之间的差异。

结果

细菌trna的二维随机游走比计算机生成的随机数据“扩散”更小(图3)。细菌trna随机游走距离上计算的相对Lempel-Ziv、熵和Hurst指数在统计学上低于计算机生成的随机数据(p<0.01, p<0.05)。表1总结了结果。

图3。计算机生成的随机数据和tRNA的随机游走

计算机生成的随机数据(上)和tRNA(下)作为随机行走的图形表示。序列从图右下角的原点开始。tRNA随机游走似乎比计算机生成的随机序列更不“分散”。

表1。随机行走距离的非线性分析:细菌的trna与计算机生成的随机数据(平均值(SD))

随机数据
(白噪声)

细菌的图示

楼主的

0.74 (0.04)

0.49 (0.03) **1

0.44 (0.1)

0.33 (0.03) *1

赫斯特

0.49 (0.02)

0.35 (0.02) **1

相对于随机序列数据(**1,p<0.01;*1, p<0.05),意味着核酸序列的结构比解构随机数据更有序。此外,tRNA序列具有“记忆”(H≠0.5)

讨论

许多研究都致力于检查核酸序列的结构,以进行各种数学变换,以揭示DNA中的模式不规则性,这通常是由约束引起的,因此经常与功能相关[12-19],也使用图形方法[5,6]。通过我们的方法,古老的信息聚合物,古老的细菌tRNAs [20]LZ复杂度、熵和Hurst指数明显低于随机序列数据(白噪声)。这些数据揭示了解构随机性(白噪声)的显著转变,即比纯随机序列更有序的结构,也证实了我们之前使用不同非线性指标[21]所得到的结果。

所观察到的与纯随机性的偏差可能来自于某些约束,如该生物大分子的二级结构和/或由重复亚基[1]引起的该大分子的特殊起源。

Gayle和Freeland[22]表明卢卡中存在的20个氨基酸不是随机选择的et al。与随机多肽相比,[23]在蛋白质序列中显示出显著的Shannon熵减少(-1%)。与我们的结果一起,这些数据似乎表明,进化更早地选择了非随机的“字母”:有序和随机在生命的黎明出现。

结论

研究表明,tRNAs序列比解构的随机序列(白噪声)更有序。描述为随机游走的核酸序列的Lempel-Ziv和熵评价提供了一个有效的工具来评估核酸序列初级结构中的有序/无序量。

参考文献

  1. 迪朱利奥M(1998)关于2021年版权OAT的思考。版权所有。理论生物学191: 191 - 196。[Crossref
  2. Eigen M, Lindemann BF, Tietze M, Winkler-Oswatitsch R, Dress A, et al.(1989)遗传密码的年龄?tRNA的统计几何提供了答案。科学244: 673 - 679。[Crossref
  3. Ciccarelli FD, Doerks T, von Mering C, Creevey CJ, Snel B等(2006)高分辨率生命树的自动重建。科学311: 1283 - 1287。[Crossref
  4. WH Press, S.A (1992) Teukolsky,便携式随机数发生器。物理计算机6: 522 - 524。
  5. Hamori E, Ruskin J (1983) H曲线,一种特别适合于长DNA序列的核苷酸序列表示的新方法。生物化学258: 1318 - 1327。[Crossref
  6. 李志强,李志强,李志强(1985)核酸序列的图形编码。Biochimie67: 445 - 448。[Crossref
  7. W Feller,概率论及其应用导论(第1卷,第3章),第3版,Wiley系列概率与数理统计,Wiley, 1968年。
  8. Sprott JC, Rowlands G(1995)混沌数据分析仪,物理学术软件。
  9. Kaspar F, Schuster HG(1987)时空模式复杂性的易于计算的度量。Phys Rev A36: 842 - 848。[Crossref
  10. Grassberger P, Procaccia I(1983)从混沌信号估计Kolmogorov熵。Phys Rev A28日:2591 - 2593。
  11. 费德J.分形学。全会,纽约和伦敦,1988年。
  12. 李志强,李志强,李志强(1995)基于小波分析的DNA序列长程相关性分析。物理Rev Lett74: 3293 - 3296。[Crossref
  13. Claverie JM(1997)脊椎动物基因组序列基因鉴定的计算方法。哼Mol Genet6: 1735 - 1744。[Crossref
  14. Anastassiou D(2001)基因组信号处理。IEEE信号程序18: 8-20。
  15. 李文杰,李志强,李志强,等(2002)基于数字信号处理的基因组序列分析方法。IEEE GENSIPS研讨会。1 - 4。
  16. 杨晓明,李志强,李志强(2004)基于DNA行走的DNA序列可视化分析。富兰克林研究所341: 37-53。
  17. 海莫维奇AD, Byrne B, Ramaswamy R, Welsh WJ (2006) DNA行走的小波分析。计算生物学13: 1289 - 1298。[Crossref
  18. Fasold M, Langenberger D, Binder H, Stadler PF, Hoffmann S (2011) DARIO:用于下一代测序实验的ncRNA检测和分析工具。核酸测定39: w112 - 117。[Crossref
  19. Videm P, Rose D, Costa F, Backofen R (2014) BlockClust:从短读RNA-seq配置文件中高效聚类和分类非编码rna。生物信息学30: i274 - 282。[Crossref
  20. Rodin AS, Szathmáry E, Rodin SN(2011)遗传密码的起源和翻译前的tRNA。杂志直接6: 14。[Crossref
  21. Bianciardi G, Borruso L (2015) tRNAs核苷酸序列的随机游走非线性分析:原始信息聚合物的随机性和有序性。J Mol Evol80.[Crossref
  22. Philip GK, Freeland SJ(2011)进化选择了氨基酸的非随机“字母表”吗?天体生物学11: 235 - 240。[Crossref
  23. Weiss O, Jiménez-Montaño MA, Herzel H(2000)蛋白质序列的信息量。理论生物学206: 379 - 386。[Crossref

编辑信息

主编

Bianciardi乔治•
锡耶纳大学

文章类型

研究文章

出版的历史

收稿日期:2015年3月10日
录用日期:2015年3月20日
出版日期:2015年3月23日

版权

©2015 Bianciardi G.这是一篇根据创作共用署名许可条款发布的开放获取文章,允许在任何媒介上不受限制地使用、分发和复制,前提是注明原作者和来源。

引用

Bianciardi G和Borruso L(2015)随机游走的非线性分析:分析核酸序列的工具。医学与生物学分形几何与非线性分析1:doi: 10.15761/FGNAMB.1000102

相应的作者

Bianciardi G

锡耶纳大学医学生物技术系,Via delle scott 6,53100,意大利锡耶纳。

电子邮件:giorgio.bianciardi@unisi.it

表1。随机行走距离的非线性分析:细菌的trna与计算机生成的随机数据(平均值(SD))

随机数据
(白噪声)

细菌的图示

楼主的

0.74 (0.04)

0.49 (0.03) **1

0.44 (0.1)

0.33 (0.03) *1

赫斯特

0.49 (0.02)

0.35 (0.02) **1

图1所示。Visual Basic子例程:tRNA随机行走(“轨道”,为每个基收集到原点的距离)。计算核苷酸序列数据的碱基比RT (trna.txt)

图2。Visual Basic子程序:将一串随机数据转换为随机核苷酸序列。

图3。计算机生成的随机数据和tRNA的随机游走