文本

看看最近的文章

基于单核苷酸多态性(SNP)遗传标记的神经网络在太平洋七鳃鳗表型性状预测中的应用

拉里萨Besic

波黑国际伯奇大学工程和信息技术学院遗传和生物工程系

电子邮件:bhuvaneswari.bibleraaj@uhsm.nhs.uk

im Muhovic

波黑国际伯奇大学工程和信息技术学院遗传和生物工程系

Adna Asic

波黑国际伯奇大学工程和信息技术学院遗传和生物工程系

Aida中航

波黑国际伯奇大学工程和信息技术学院遗传和生物工程系

Lejla Gurbeta

波黑国际伯奇大学工程和信息技术学院遗传和生物工程系

Verlab有限公司,Ismeta Mujezinovica 30, 71 000波斯尼亚和黑塞哥维那萨拉热窝

Almir Badnjevic

波黑国际伯奇大学工程和信息技术学院遗传和生物工程系

Verlab有限公司,Ismeta Mujezinovica 30, 71 000波斯尼亚和黑塞哥维那萨拉热窝

萨拉热窝大学电气工程学院,波黑Zmaja od bosnbb, 71 000波斯尼亚和黑塞哥维那萨拉热窝

萨拉热窝大学医学院Cekalusa 9071 000波斯尼亚和黑塞哥维那萨拉热窝

DOI: 10.15761 / BRCP.1000154

文章
条信息
作者信息
数字和数据

摘要

由于遗传因素的丰富和环境因素对复杂性状的影响,单核苷酸多态性与表型之间的关系是嘈杂和隐蔽的,这使得人工神经网络作为复杂函数的通用逼近方法的思想有了前景。

在本研究中,我们比较了不同的神经网络结构和输入参数来预测太平洋七鳃鳗的成年长度,这是它们总迁移距离的主要指标。比较了不同输入参数范围和不同隐藏层大小的前馈和简单递归网络结构。结果表明,表现最好的人工神经网络在区分长和短样本的准确率为67.5%。敏感性和特异性分别为62.16%和70.73%。

我们的结果意味着具有单个隐藏神经元的前馈ANN架构足以解决样品分类的问题。尽管如此,虽然ANNS在SNP数据的情况下在具有未知关系的近似函数近似函数时,需要进行额外的工作,以确保所选择的SNP标记与与所检查特征有关的功能区相关,因为使用非特定的标记将导致在数据集中引入噪声

关键字

人工神经网络,单核苷酸多态性,太平洋七鳃鳗,遗传标记

背景

迁徙行为是指个体的长距离移动,大多是季节性的。迁徙行为是行为生物学中最为人所熟知和研究的现象之一,在大多数动物物种中都可以观察到迁徙行为。迁徙模式不可预测的动物对致力于有效种群管理和保护的生态学家提出了挑战,因为它们的迁徙模式受到分布在广泛地理范围内的多个事件的影响,通常包括国际边界[1]。开始迁徙行为的信号主要是环境因素,通常与鸟类白昼的长度有关,或鱼类迁徙时的水温有关。然而,有证据表明,基因在个体迁移倾向中起着重要作用。调控鸟类迁徙行为的遗传分子机制已经被研究,控制这种行为的基因已经被发现。

单核苷酸多态性(SNPs)以前曾被用于预测许多物种的多种性状,从数量性状[4,5]到离散性状,如眼睛颜色[6]。单核苷酸多态性是个体在基因组特定位置上的单碱基序列变化。它们在人类和动物的基因组中含量丰富,通常用于区分一个物种的个体。

太平洋七鳃鳗(onosphenus tridentatus.)最近对SNP标记进行了研究,这些SNP标记可用于预测个体的迁移行为。在这项研究中,三种SNP标记可以作为该物种迁徙行为的有效预测因子。这些个体的迁移行为的主要特征是总体长,因为我们注意到,较短的鱼不太可能表现出长距离迁移行为[8]。太平洋七鳃鳗在生态系统中扮演着重要的角色,它是鲑鱼免受捕食者攻击的缓冲区,也是生活在太平洋沿岸许多部落的重要食物和文化象征。太平洋七鳃鳗是一种高度分散的溯河性鱼类,缺乏严格的归航地点。相反,太平洋七鳃鳗似乎是根据信息素线索来确定产卵地点的[10,11]。从温室的角度来看,这使得预测它们的移动和迁徙行为具有挑战性和重要性。太平洋七鳃鳗的数量正在下降,这主要是由于环境问题、大坝设计不完善,阻碍了它们的产卵迁移,以及普遍认为七鳃鳗是一种入侵的寄生物种,尽管它是太平洋沿海地区的本土物种[12,13]。此前,利用被动集成转发器(PIT)标记研究了它们的迁移行为,在成年标本[14]中观察到它们与迁移距离和长度的相关性。

人工神经网络在遗传学上的应用很有吸引力[15-18],因为由于遗传因素的丰富和环境因素对复杂性状的影响,SNPs与表型之间的关系是嘈杂和隐蔽的[19,20]。它们适用于各种生物分类问题,如区分野生和驯化的鲑鱼和鳟鱼种群,以及回归问题,如预测硫的去除Acidithiobacillu年代物种(21、22)。

本研究比较了两种不同的神经网络结构类型、不同数量的隐藏节点以及不同的输入参数和训练数据分布的预测能力。目标参数是个体太平洋七鳃鳗的成年总体长,这是基于先前发表的[8]。

方法

对于这类问题,最常用的神经网络是线性前馈和递归(反馈结构),如Elman神经网络[23-25]。因此,我们对相同数据集上的神经网络类型进行了直接比较,以确定基于SNP数据的最适合预测表型性状的神经网络类型。

前馈网络

单层馈送网络经常用于回归问题和预测。线性前馈神经网络通常足以正确执行分类任务,并且也适用于回归任务[26-28]。它们是其中信息在一个方向上行进的模型,没有输入和输出之间的任何环路或周期。神经元在开始时被分配随机权重,并且在每个神经元计算权重和输入的产品(线性组合)的总和。如果获得的值大于给定阈值,则神经元“触发”并呈现激活值。如果未达到阈值,则它假设取消激活值。网络的培训取决于所获得的输出。在使用增量规则的情况下,在预测和目标数据之间计算误差,并且基于误差调整神经元的权重。重复该“BackPropagation”过程,直到达到足够低的误差水平,或者直到达到预定义的截止点[29]。在隐藏层中具有一个神经元的前馈神经网络的表示,并且在图1中示出了九个输入神经元。

图1所示。单层前馈神经网络结构,九个输入,一个神经元在隐层,一个神经元在输出层。

在本研究中,每个隐藏神经元的输入是权重向量、输入SNP变量和前馈网络的“偏置”权重的线性组合。每个神经元的输入如式1所示。将结果通过s形激活函数(式2)进行转换,得到隐藏神经元的输出值。

输出层也由神经元组成。输出层神经元的输入是输出的线性组合隐藏层神经元的输出层的权重q,偏见和一个输出层神经元b。获得的价值转换的线性变换函数pt(.)生成的值预测成年个体的长度,如方程3所示。

在神经网络的训练过程中,采用神经网络训练常用的Levenberg-Marquardt算法(LMA)建立最优权值[30,31],使预测权值与实际权值[32]之间的误差最小。这是通过使用一个反向传播过程来实现的,该过程一直持续到达到最佳平均误差平方水平或满足停止标准。

Elman神经网络

Elman神经网络具有反馈结构,也被称为递归神经网络。这种结构,除了前馈网络结构中的层之外,还有一个“上下文”层,它保存了前一个迭代隐藏层的未加权输出,从而给神经网络一种短期记忆或前馈网络不具有[33]的上下文。由于没有上下文层的存在,Elman网络在第一次迭代中与前馈网络相同。在第一次迭代之后,上下文层由隐藏层的前一次迭代组成,类似于三层前馈网络,其中一层是前一次迭代隐藏层的副本。图2显示了一个包含一个隐藏神经元和9个输入神经元的Elman网络。

图2。Elman(递归)神经网络结构,有九个输入,一个神经元在隐层,一个神经元在输出层。

等式4用于计算ELMAN网络中的隐藏神经元值;它与等式1非常相似,其中唯一的差异是添加上下文层输入。

S形函数(等式2)用作隐藏层中的激活函数,用线性变换函数(等式3)作为输出层中的激活函数。

Elman网络的训练采用动量梯度下降和自适应学习率训练方法,这是一种常用的反向传播算法,用于训练递归神经网络[34]。训练继续进行,直到达到最小的错误水平,或满足停止标准。

创建数据集

已经收集了包含94个总标记物基因分型的797个个体的数据集[8],其额外的数据描述了它们的大小,重量和候距离。确定其中的三种标记与总成型长度的相关性,发现与具有形态特征结合的基因相关(表1)。

表1。SNP标志物与形态特征的关联。

SNP标记

形态特征

Etr_5317

定位于DYM基因,它编码一种与正常骨骼发育和大脑功能相关的蛋白质。

Etr_4281

与人类同源物PCDH15一致,PCDH15编码一种膜蛋白,其功能是介导钙依赖的细胞细胞粘附。

Etr_1806

在任何描述的基因区域内没有出现定位。

为了比较与预测性状没有直接相关性的SNP标记的效果,我们构建了三个独立的数据集。一个数据集只包含与成虫长度相关的SNP标记(数据集S3)。第二个数据集包含S3 SNPs和7个任意选择的SNPs (S10),另一个数据集包含研究中包含的所有SNPs (S94)。由于SNPs不能用连续变量来表示,而且每个SNP出现时都有多个可能的变体,因此每一个变体都被用作一个标志值,在具有三倍于SNPs数量的神经网络中作为输入神经元合计。一个例外是S94数据集,其中包含两个snp,它们有两个变异,而不是三个,结果总共有280个输入神经元。表2给出了一个例子。数据集中的目标值是个体的总长度。

表2。神经网络输入参数的编码。

Etr_1806

ETR_1806_AA

Etr_1806_ag

Etr_1806_gg

AA.

1

0

0

AG

0

1

0

GG

0

0

1

为了调查测试数据的分布对神经网络训练的影响,我们设计了三种不同的分割数据,H,T和Q方案,如表3所示。总计导致九个不同的输入和测试数据集。

表3。本研究中使用的数据集的数据拆分方案。数据基于单个样本的长度划分。训练数据集在顶部表示,而相应的测试数据拆分在表的底部表示。

训练数据集

H Splast.

T分

问分裂

数量的样品

长度

数量的样品

长度

数量的样品

长度

300

<660毫米

200

≤610毫米

150.

< 610毫米

300

≥660毫米

200

>610 mm≤655 mm

150.

>610 mm和≤650 mm

200

> 655毫米

150.

> 650 mm和≤685mm

150.

> 685毫米

测试数据集

H Splast.

T分

问分裂

数量的样品

长度

数量的样品

长度

数量的样品

长度

145

<660毫米

6

≤610毫米

56.

小于610毫米

52.

≥660毫米

39

>610 mm≤655 mm

89

>610 mm和≤650 mm

152.

> 655毫米

38

> 650 mm和≤685mm

41.

> 685毫米

ANN的输出值是以毫米表示的个体的长度。该输出值被标准化为0和1之间的值(等式5),因为这是为了获得更好的初始权重而完成的标准过程,并使培训更快地(Larose 2014)。

在式5中,训练数据集中鱼的最小长度为480 mm,数据集中鱼的最大长度为770 mm。

神经网络训练和性能测量

我们检验了神经网络的准确性和性能,这些神经网络采用前馈结构和Levenberg-Marquardt训练方法,以及循环神经网络结构,也被称为Elman结构,使用动量梯度下降和自适应学习率训练算法。这两种算法都是ANN领域常用的优化算法,也是MATLAB中用于前馈和Elman网络的默认算法,分别为[35]。对隐神经元的数量、不同的输入值和训练数据集的分布进行了检测。隐藏层的神经元数量通过单个神经元重复增加,从1个开始,一直增加到20个,这是我们任意选择的停止点。

平均绝对误差(MAE)和Pearson的相关系数用于测量ANN预测性能。基于等式(6)和(7)计算平均绝对误差。

Pearson的预测和实际值的相关系数(r)作为输入值和输出值之间的线性度量,使用式8计算,其中n为样本总数(表4)。

表4。神经网络测试结果。

平均绝对误差

平均绝对误差(%)

皮尔森相关
系数

准确性为%
分类

30.16毫米

0.68

67.51%

每个神经网络使用600个样本进行训练,并进行70:30的数据分割,其中70%的数据用于训练,30%用于验证。抽样是随机的,以避免数据集中的任何选择偏差。性能测试使用了197个在培训阶段没有使用的样本。这是一种常见的数据分割方案,在ANN应用程序[36]中经常使用。

使用三个数据集对每个网络类型重复该过程,以及每个数据集的三个不同的数据分割,导致本研究中分析了360个神经网络。使用R编程语言进行数据预处理和分析[37],而使用MATLAB进行神经网络的构建和培训[38]。

结果

本研究的综合结果如图3所示。它绘制所有数据集和数据分割的目标和预测参数的相关性。单个图(a-f)表示不同数据分割的目标和预测参数的相关性。第一行(a-c)表示使用Elman架构的结果,而第二行(d-f)表示使用前馈架构的结果。

图3。不同数据集分布和隐藏层神经元数量的前馈和递归神经网络结构的训练性能。第一行(a-c)表示Elman网络,第二行(d-f)表示前馈网络。其中空白正方形为S3数据集网络,S10用空白圆表示,S94用空白三角形表示。第一列按H方案进行拆分,第二列为T方案,第三列为Q方案。纵轴为Pearsons r系数,横轴为隐藏层神经元数量。

不同ANN体系结构的预测能力

在Elman网络的情况下,随着隐藏层中神经元数的增加,没有观察到改善。一旦隐藏层超过三个神经元,它们的性能迅速下降,特别是在嘈杂的数据集的情况下,在无噪声的情况下,性能保持一致(图3A-3C)。对此降低的解释是隐藏的节点的增加导致了过度装备,即神经网络记住训练数据,但没有学习能够使其预测新样本长度的基础规则[35]。

在S3数据集中,前馈网络的性能随隐层神经元数量的增加而变化不大。然而,在噪声数据集S10和S94中,神经元数量的增加有助于处理噪声输入并提高性能。这一点在S94中最为明显,表现最好的前馈神经网络在隐层中分别有2个、7个和4个神经元(图3 -3f)。

在Elman和前馈神经网络架构的总体比较中,当隐层神经元数量发生变化时,Elman的预测能力更具有一致性。但需要注意的是,使用Q数据分裂方案的S3数据集,通过单个神经元前馈网络获得了最高的相关性。

根据培训数据的预测能力

S3数据集始终提供了最好的结果,因为在此场景中使用的SNPs之前已经与目标变量相关,因此提供了一个无噪声的数据集,是理想的输入变量。S10数据集在隐藏层较小的神经网络中与S3数据集的性能相当,而S94数据集的性能最好是不稳定的。尽管随着隐层的大小开始超过10个神经元,神经网络的性能越来越差,但Q数据分裂方案(表3)的结果最好。H数据分割紧随其后,而T数据分割在三种方法中表现最差,无论隐藏神经元的数量或使用的网络结构如何。

最高执行前馈ANN测试

使用197个样本进行了最高执行ANN的测试,该样本不包括在训练数据集中(表3)。通过平均绝对误差(方程6和7)测量用于测试数据集的训练的前馈ANN的性能。实现了30.162毫米的平均绝对误差。转换为百分比值时,平均绝对误差为5.03%(等式2,表4)。

对测试数据集的Pearson相关系数计算为0.68,由此得出的结论是,样本的真实长度和预测长度之间具有相对较高的相关性。该网络识别长、短样本的准确率为67.5%。准确率是通过将测试数据集的真实值和预测值转换为分类值来计算的,这些分类值要么长(≥660mm),要么短。在197个样本中,74个样本来自长组,123个样本来自短组。在74个长样本中,46个样本被正确预测,灵敏度为62.16%。在123个短样本中,87个样本被正确预测,特异性为70.73%(表5)。

表5所示。专家系统的性能。

预测的条件

真实情况

短的

真正预测的百分比

错误预测百分比

长(≥660 mm

46.

28

62.16

38.84

短(<660 mm

87

36

70.73

29.27

2021版权燕麦。保留所有权利

讨论

不断变化的环境影响了太平洋七鳃鳗的自然迁徙本能,使它们长途跋涉才能到达它们的自然产卵地点。本文比较了简单递归(Elman)神经网络和前馈神经网络在预测太平洋七鳃鳗个体成体大小方面的差异。前馈体系结构可以根据三个标记的SNP变异对个体进行有效的表型分类。

结果显示,在一个平均个体大小约为55厘米的物种中,实际长度和预测长度的平均差异为3厘米,这是令人满意的。然而,尽管这些结果看起来很有希望,但人们必须考虑到预测一个复杂性状的内在困难,这种性状在很大程度上受环境因素而不仅仅是遗传因素的影响。成年太平洋七鳃鳗的大小严重依赖于环境因素,如水温[39],但本研究没有考虑这些因素,因为源数据集没有深入研究这些因素。

将结果与类似研究进行比较,其中回归模型和人工神经网络与SNP数据一起使用。构造的多项式逻辑回归模型使用来自八个基因的24个SNP设计。所提出的模型揭示了预测0.73 [40]的中间眼睛的精度。另一方面,基于六个IRISPLEX SNP使用多聚体回归模型的眼睛颜色预测显示中间眼睛颜色的精度为0.796 [6]。此外,回归模型使用全基因组测序数据发现其在特征预测中的应用。结果显示了不同池尺寸的再凝避精度范围为0.075至0.85,用于眼睛颜色特性[41]。

然而,在人工神经网络中,根据数据集的不同,人们发现它们是一致的,甚至比某些其他研究表现得更好。SNP数据被用来预测人类儿童过敏性哮喘,和获得的准确性为74.4%,这与本研究的结果后,将输出转换为一个定值,预测的准确性是否个人是一个大型鱼类(长度> 66厘米)[42]67.5%。

采用神经网络对牛的各种复杂性状进行预测,得到的预测相关性范围为0.47,最佳情景为0.67,而本研究的相关系数为0.68。这些结果与之前的研究一致,给了作者在本研究中人工神经网络测试设计和执行的信心,并作为另一组证据,使用人工神经网络结合SNPs预测复杂性状[15]的有效性。

将不同结构的神经网络的性能与牛和小麦的表型预测任务进行了比较,得出的结论是,非线性神经网络在该场景下优于线性结构,因为它们具有更高的预测相关性。我们的结果优于他们的预测值,这可能是因为我们使用了已知涉及目标性状的SNP,而他们使用了一个大的SNP面板,这可能有引入噪声到数据集[16]的不必要的副作用。

探讨了多种神经网络模型用于预测安格斯牛的大理石纹评分。作者使用了不同的训练算法、不同的激活函数和不同的隐藏层神经元数量,根据所使用的算法和输入数据集,他们的训练集具有0.776 - 0.858的高相关性。像以前3000年和700年的SNP面板标记,还有待探索他们的结果能否得到改善通过限制输入SNP的数量只有最相关的,和应用程序使用的数据集的方法在我们的研究中是一个很好的主题为进一步研究[17]。

在我们的研究中,隐藏神经元数量相对较少的神经网络表现出良好的效果,这种情况并不少见,因为即使是单个隐藏神经元神经网络也具有学习复杂规则的能力[43,44]。增加隐藏神经元的数量只在有噪声的数据集中是必要的,因为它是用来处理噪声数据的。对神经网络性能影响最大的是输入值的选择和值在输入数据集中的分布,因为最佳性能是通过训练数据分割,其中个体样本的长度均匀分布。

结论

我们比较了许多基于SNP数据的预测表型性状的ANN模型。为了获得最佳的预测成年太平洋七鳃鳗长度的神经网络模型,我们研究了网络结构、隐藏层大小、输入和训练数据分割的影响。结果表明,使用最小数量的数据集(3个)和隐藏层的一个神经元,前馈神经网络结构提供了最准确的预测性能。这些结果与之前在这一领域的发现相一致。

虽然人工神经网络在近似未知的关系近似,但是在SNP面板的情况下,它们在数据集中没有噪声的情况下工作得多,并且必须通过探索所选输入的相关性的探索来启动任何此类进一步研究输出特征以避免噪声数据。

可用性数据和材料

支持本文结论的数据集可以在Data Dryad存储库http://datadryad.org/resource/doi:10.5061/dryad.t0391中找到。

作者的贡献

设计了实验装置,写了手稿。IM:进行数据挖掘和分析。AA, AC, LG:对手稿有贡献。AB:协调研究并提供关键见解。所有作者阅读并批准了最终的手稿。

参考文献

  1. (2007)迁徙物种的最优保护。普罗斯一体2: e751。[crossref]
  2. Skov C, Aarestrup K, Baktoft H, Brodersen J, Brönmark C, et al.(2010)环境线索、迁移历史和栖息地熟悉度对部分迁移的影响。Behav生态21:1140-1146。
  3. 与鸟类迁徙行为相关的基因鉴定。Proc Sci杂志278: 2848 - 2856。[crossref]
  4. Morota G, Abdollahi-Arpanahi R, Kranis A, Gianola D(2014)基于基因组注释的鸡数量性状的基因组enabled预测。BMC染色体组15: 109。[crossref]
  5. Yang J, Benyamin B, McEvoy BP, Gordon S, Henders AK, et al.(2010)常见SNPs解释了人类身高遗传力的很大一部分。Nat麝猫42: 565 - 569。[crossref]
  6. Kastelic V, PoÅ piech E, Draus-Barini J, Branicki W, DrobniÄ K(2013)使用IrisPlex SNPs预测斯洛文尼亚人口的眼睛颜色。克罗地亚地中海J54: 381 - 386。[crossref]
  7. 法医DNA分型的高级主题:方法论。学术出版社,剑桥。
  8. Hess Je,CC,Keefer ML,McIrlraith BJ,Moser ML,等人。(2014)基因预测迁徙鱼类,太平洋羊斑的长距离迁移和大体积大小。Evol.7: 1192 - 1208。[crossref]
  9. (2002)濒临灭绝物种的生态和文化重要性,太平洋七鳃鳗。渔业27: 19-5。
  10. Hess Je,Campbell NR,Chite Da,Docker MF,Narum SR(2013)Pacific Lampley的人口基因组学:高度分散性物种的自适应变化。Mol Ecol.22日:2898 - 2916。[crossref]
  11. 既非亲缘性也非恐慌性:微卫星和mtDNA证据表明,太平洋七鳃鳗缺乏出生时的归巢,但扩散受到限制。Mol Ecol.21日:2916 - 2930。[crossref]
  12. 杰克逊A,Moser M(2012)低海拔水坝是俄勒冈州Umatilla River中成人太平洋Lamprey产卵迁移的障碍。北美j鱼管理32: 548 - 556。
  13. MOSER ML,CLOSE DA(2003)评估哥伦比亚河流域的太平洋Lampley地位。西北科学77: 116 - 125。
  14. Keefer ML, Moser ML, Boggs CT, Daigle WR, Peery CA(2009)体型和河流环境对成年七鳃鳗上游洄游的影响。北美j鱼管理29日:1214 - 1224。
  15. eret A, Hochstuhl D, Gianola D, Thaller G(2015)神经网络与反向传播技术在荷斯坦-弗里西亚和德国弗莱克维牛基因组复杂性状预测中的应用。Genet Sel Evol.47: 22。[十字架
  16. 基于贝叶斯神经网络的复杂数量性状预测:以泽西奶牛和小麦为例。BMC麝猫12:87。[crossref]
  17. Okut H, Wu XL, Rosa GJ, Bauck S, Woodward BW, et al.(2013)利用人工神经网络和贝叶斯回归模型预测安格斯牛大理石纹评分的预期后代差异。Genet Sel Evol.45: 34。[crossref]
  18. Aljovic A, Badnjevic A, Gurbeta L(2016)人工神经网络在使用生物标志物数据识别阿尔茨海默病中的应用。IEEE第5次地中海会议嵌入式计算(MECO),BAR,Montenegro。
  19. MacKay DJ(2003)信息理论、推理和学习算法。剑桥大学出版社,剑桥。
  20. Secerovic A,Gurbeta L,Omanovic-Miklicanin E,Badnjevic A(2017)基因型与体育活动协会:ACE和Actn3基因多态性对运动性能的影响。Intj engres technol
  21. Acharya C,MoHanty S,Sukla Lb,Misra VN(2006)用酸酐去除硫的预测。使用人工神经网络。生态模型190: 223 - 230。
  22. Hansen MM, Kenchington E, Nielsen EE(2001)使用微卫星DNA标记将单个鱼类分配到种群。鱼鱼2: 93 - 112。
  23. 胡晓燕,吴文奇(2005)基于递归神经网络的遗传调控网络模型。Conf Proc IEEE Eng Med Biol Soc5: 4735 - 4738。[crossref]
  24. Ramos EG, Martínez FV(2013)人工神经网络综述:它们在时间序列预测中的表现如何?Analítika Rev Análisis Estad6:7-18。
  25. Veljovic E,Spirtovic-Halilovic S,Muratovic S,Osmanovic A,Badnjevic A等人。(2017)人工神经网络与对接研究的设计与合成X.Santhenes作为抗微生物剂。IFMBE诉讼程序62: 617 - 626。
  26. Badnjevic A,Cifrek M,Koruga D,Osmankovic D(2015)神经模糊分类哮喘和慢性阻塞性肺病。BMC Med Inform Decis Mak15: S1。[十字架
  27. Byvatov E,Fechner U,Sadowski J,Schneider G(2003)支持向量机和人工神经网络系统进行药物/非rongrug分类。计算机科学学报43: 1882 - 1889。[crossref]
  28. Khan J, Wei JS, Ringner M, Saal LH, Ladanyi M, et al.(2001)利用基因表达谱和人工神经网络进行癌症分类和诊断预测。Nat Med.7:673-679。[十字架
  29. Larose DT(2014)数据中的知识发现:数据挖掘导论。霍博肯的约翰·威利父子公司。
  30. Yu H, Wilamowski BM (2011) Levenberg-marquardt训练。Ind电子手5:1。
  31. Alic B,Sejdinovic D,Gurbeta L,Badnjevic A(2016)使用人工神经网络进行应力识别的分类。IEEE第5次地中海会议嵌入式计算(MECO),BAR,Montenegro。
  32. Fojnica A, Osmanovic A, Badnjevic A(2016)基于人工神经网络的结核病动态模型-多毒株预测。IEEE第5次地中海会议嵌入式计算(MECO),BAR,Montenegro。
  33. Elman JL(1990)及时寻找结构。Cogn Sci14: 179 - 211。
  34. 基于自适应学习速率和动量项的神经网络。Idiap。
  35. Hagan MT, Menhaj MB(1994)使用Marquardt算法训练前馈网络。IEEE跨神经网络5: 989 - 993。[crossref]
  36. rewanova Z(2010)数据分割。WDS的10 Proc Contrib Pap部分10:31-36。
  37. (1)广义线性混合模型:综述和一些扩展。生命周期数据肛门13:497-512。[crossref]
  38. Demuth H, Beale M(1993)使用MATLAB的神经网络工具箱。
  39. Griffiths RW,Beavish F,Morrison B,Barker L(2001)因素影响幼虫海参的生长和长度在乳草处理的流中的变态下。Trans Am Fish Soc130: 289 - 306。
  40. Liu F, van Duijn K, Vingerling JR, Hofman A, Uitterlinden AG, et al.(2009)眼颜色与基因型对复杂表型的预测。咕咕叫杂志19:R192-R193。[crossref]
  41. Lippert C,Sabatini R,Maher Mc,Kang Ey,Lee S等人。(2017)使用全基因组测序数据通过特质预测识别个体。Proc Natl Acad Sci U S a114: 10166 - 10171。[crossref]
  42. Tomita Y,Tomida S,Haegawa Y,Suzuki Y,Shirakawa T,等。(2004)人工神经网络选择易感单核苷酸多态性和儿童过敏性哮喘预测模型的构建。BMC Bioinform5: 120。[十字架
  43. Nejjari H,Benbouzid Meh(2000)使用当前公园的矢量模式学习方法监测和诊断感应电机电气故障。IEEE Trans Ind Appl36:730-735。
  44. Sarkisyan KS, Bolotin DA, Meer MV, Usmanova DR, Mishin AS,等(2016)绿色荧光蛋白的局部适应度景观。自然553:397-401。[十字架

编辑信息

主编

那种Nishizawa
Teikyo大学

文章类型

研究文章

出版的历史

收稿日期:2017年12月2日
接受日期:2017年12月22日
出版日期:2017年12月26日

版权

©2017 Bešić L,等。这是一篇开放获取的文章,在知识共享署名许可协议的条款下发布,该协议允许在任何媒体上无限制地使用、发布和复制,前提是注明原作者和来源。

引用

Bešić L, Muhović I, Ašić A, Ćatić A, Gurbeta L, et al.(2017)基于单核苷酸多态性遗传标记的神经网络在太平洋七鳃鳗表型性状预测中的应用。Biomed Res Clin Prac 2: DOI: 10.15761/BRCP.1000154

相应的作者

Larisabešić.

遗传学和生物工程系,工程学院,国际勃艮第大学,弗朗斯科·罗克里省BB,伊利德省71210,萨拉热窝,波斯尼亚和黑塞哥维那

电子邮件:bhuvaneswari.bibleraaj@uhsm.nhs.uk

图1所示。单层前馈神经网络结构,九个输入,一个神经元在隐层,一个神经元在输出层。

图2。Elman(递归)神经网络结构,有九个输入,一个神经元在隐层,一个神经元在输出层。

图3。不同数据集分布和隐藏层神经元数量的前馈和递归神经网络结构的训练性能。第一行(a-c)表示Elman网络,第二行(d-f)表示前馈网络。其中空白正方形为S3数据集网络,S10用空白圆表示,S94用空白三角形表示。第一列按H方案进行拆分,第二列为T方案,第三列为Q方案。纵轴为Pearsons r系数,横轴为隐藏层神经元数量。

表1。SNP标志物与形态特征的关联。

SNP标记

形态特征

Etr_5317

定位于DYM基因,它编码一种与正常骨骼发育和大脑功能相关的蛋白质。

Etr_4281

与人类同源物PCDH15一致,PCDH15编码一种膜蛋白,其功能是介导钙依赖的细胞细胞粘附。

Etr_1806

在任何描述的基因区域内没有出现定位。

表2。神经网络输入参数的编码。

Etr_1806

ETR_1806_AA

Etr_1806_ag

Etr_1806_gg

AA.

1

0

0

AG

0

1

0

GG

0

0

1

表3。本研究中使用的数据集的数据拆分方案。数据基于单个样本的长度划分。训练数据集在顶部表示,而相应的测试数据拆分在表的底部表示。

训练数据集

H Splast.

T分

问分裂

数量的样品

长度

数量的样品

长度

数量的样品

长度

300

<660毫米

200

≤610毫米

150.

< 610毫米

300

≥660毫米

200

>610 mm≤655 mm

150.

>610 mm和≤650 mm

200

> 655毫米

150.

> 650 mm和≤685mm

150.

> 685毫米

测试数据集

H Splast.

T分

问分裂

数量的样品

长度

数量的样品

长度

数量的样品

长度

145

<660毫米

6

≤610毫米

56.

小于610毫米

52.

≥660毫米

39

>610 mm≤655 mm

89

>610 mm和≤650 mm

152.

> 655毫米

38

> 650 mm和≤685mm

41.

> 685毫米

表4。神经网络测试结果。

平均绝对误差

平均绝对误差(%)

皮尔森相关
系数

准确性为%
分类

30.16毫米

0.68

67.51%

表5所示。专家系统的性能。

预测的条件

真实情况

短的

真正预测的百分比

错误预测百分比

长(≥660 mm

46.

28

62.16

38.84

短(<660 mm

87

36

70.73

29.27