文本

看看最近的文章

机器学习:生物医学研究者的简要概述

高人气的一个

德克萨斯大学西南医学中心,美国

美国达拉斯儿童医疗中心

电子邮件:布瓦内斯瓦里。bibleraaj@uhsm.nhs.uk

沙N

德克萨斯大学西南医学中心,美国

美国达拉斯儿童医疗中心

王梓

美国德克萨斯大学达拉斯分校

拉曼L

德克萨斯大学西南医学中心,美国

美国达拉斯儿童医疗中心

DOI: 10.15761 / JTS.1000343

文章
文章信息
作者信息
数据与数据

介绍

现代医疗保健系统产生海量数据的速度,很容易超过传统的统计分析模型。个体数据点的数量如此庞大,使得识别可能具有临床意义的复杂相互作用和关系具有挑战性[1,2]。

机器学习是人工智能的一个分支。这是一个涉及计算机算法的领域,计算机算法被赋予从数据中学习的能力。这导致从数据本身生成复杂规则的模型,而不是依赖于手工输入的严格规则。输入数据[如人口统计学、生理数据、实验室值等变量]和结果[死亡率、感染、急性肾损伤等]之间的关系,即使对训练有素的专家来说不是很明显,也能被发现。近年来,在医疗保健研究中使用机器学习的文献激增;有些文章如表1所示[3-7]。

表1。最近的研究使用机器学习方法来分析大量数据

文章

日志

人口

方法

结果

机器学习实时预测危重病患者并发症:一项回顾性研究

柳叶刀呼吸医学2018

http://dx.doi.org/10.1016/ S2213-2600(18)30300-X

47 559名ICU患者

接受心脏直视手术的成年患者

深度学习(递归神经网络)预测严重并发症

准确预测死亡率、肾衰竭和出血

机器学习在儿科重症监护数据中的应用

儿科重症监护医学2018

DOI:

10.1097 / PCC.0000000000001567

11384集PICU

K意味着集群

10个集群(基于死亡率、住院时间、通气、加压和诊断的使用),集群成员预测死亡率

应用人工智能识别PICU中预测严重脓毒症的生理标志物

儿科重症监护医学2018

内政部:10.1097/PCC.0000000000001666

493名ICU患者

逻辑回归、随机森林和深度卷积神经网络

预测败血症的特异性为83%,敏感性为75%

人工智能临床医生学习重症脓毒症的最佳治疗策略

自然医学2018年

https://doi.org/10.1038/s41591-018-0213-5

2个大型数据库(17083和79073名患者)

人工智能临床医生的强化学习和马尔可夫决策过程,以建模患者环境和轨迹

人工智能临床医生选择的治疗平均可靠地高于人类临床医生

基于递归神经网络的儿科重症监护动态死亡率风险预测

ARXIV

12000名患者

递归神经网络

RNN生成了ICU死亡率的时间动态预测——AUROC>93%,优于PIM2或PRISM 3。

机器学习的类型

机器学习有几种形式,其区别在于算法用于处理数据的机制。分类机器学习类型的一种方法是将方法分为有监督的和无监督的。

监督机器学习

有监督机器学习包括使用标记数据来训练算法[8]。这涉及到从一组包含“输入-输出”对的数据开始。然后以这些为例,系统通过这些例子推断输入和输出之间的关系,并创建一个算法。然后在训练示例中未包含的数据上测试该算法,以澄清初始推断关系是否正确。一般来说,有监督机器学习方法最好用于历史数据可以预测即将发生事件的应用中。监督机器学习可以进一步分为回归或分类方法[9]。

在因变量和自变量之间的关系是连续的情况下,回归用于连续数据。例子包括线性回归、多项式回归、矢量回归、随机森林回归和贝叶斯回归。

当变量之间的关系不连续时,分类用于进行预测。示例包括K近邻、朴素贝叶斯、随机森林分类和决策树分类。

非监督机器学习

无监督机器学习包括自组织学习,可以在数据集中发现以前未知或未见的模式,而无需预先存在人类标签或标记测量[10,11]。无监督学习的目的是探索数据并发现数据之间的关系。无监督学习的主要类型是聚类和降维。

聚类算法包括K-Means聚类和层次聚类。在无监督聚类算法中,相似的数据点被聚在一起。新的数据点被检查并分配到它们所属的“集群”中。当定义的“集群”出现时,每个集群都有自己的中心,作为集群的“平均值”或“中心”。随着新数据点的加入,这个“平均值”会不断被重新计算,而随着均值的重新定义,聚类成员关系也会不断被细化。

降维是无监督学习的一种形式,在这种学习中,算法寻求“清理”数据,依靠数据中的模式来删除不需要的或非贡献的信息。这有助于提高算法的预测性能,然后可以使用其他形式的机器学习更有效地分析数据。

神经网络和深度学习

人工神经网络是受生物神经网络[12]启发的计算系统。根据神经网络的类型,可以使用有监督或无监督的方法。神经网络由人工神经元组成,按层组织,如下图1-3所示。这些层分别是输入层、输出层和中间的“隐藏”层。神经网络试图观察不同的输入[实验室,生理变量等],并应用一个功能[一系列的计算]来创建一个新的(隐藏的)层。隐藏层通常被称为这样,因为它是不清楚的观察者正在创建什么层或什么计算正在这些层中执行。

图1所示。单隐层简单神经网络

图2。具有多个隐藏层的神经网络。每增加一层,连接或“突触”的数量就呈指数增长。这有助于提高网络的数据处理能力

图3。递归神经网络的一层。网络能够从其结果中学习,并可以改变隐藏层以提高其性能

神经网络是根据隐藏层的数量以及这些层之间的连接方式进行分类的。利用多层的网络通常被称为“深度学习”网络[13]。随着层数的增加,各个层之间就会形成更多的连接(也称为突触),从而产生处理指数级更大数量数据的能力。事实上,深度学习网络最大的优势是能够处理具有数十亿参数的非线性复杂数据集。

递归神经网络(RNN)是神经网络的一种特殊形式,在研究中越来越多地使用(图3)。除了处理大量数据的能力,RNN还具有“学习”的能力。如果网络错误地预测了一个输出,它可以使用该信息返回并改变一个函数或特定的层来改变对未来样本的预测结果,纠正“它的错误”并改进未来的函数。

局限性

随着机器学习在生物科学临床研究中越来越普遍,了解其局限性至关重要[14,15]。数据是在隐藏层中处理的,因此,理解算法如何得出结论可能缺乏洞察力,应该考虑到对结果[16]的解释。结果经常在由真阳性、真阴性、假阳性和假阴性组成的混淆矩阵中报告。准确性仅代表总正确分类(TP+TN)除以总病例数,是对模型的一种相当粗略的衡量。值得注意的是,这种准确性并不代表敏感性、特异性、阳性和阴性预测值,而后者可能更具有临床相关性。

由于某些形式的机器学习可以在看起来几乎没有疏忽的情况下处理大数据集,因此确保输入数据的正确性是很重要的,以避免基于不正确的数据生成模型。认识到数据集中可用的数据量也很重要——机器学习方法可能不能最好地服务于小数据集。

机器学习方法产生的信息在学术临床研究中往往没有报道。这包括:

  1. 损失:模型在系列版本/时期的表现如何
  2. 准确性:一个模型可以变得高度精确,但不能泛化到外部数据
  3. F1成绩:回忆和准确度的衡量标准

不幸的是,对于使用机器学习方法报告未发现的结果,缺乏标准化方法。就像研究人员如何报告使用的特定统计工具/方法一样,我们主张机器学习文献报告实际模型的细节以及模型强度的度量,以确保研究结果准确且可重复。

结论

机器学习在分析大型数据集和识别以前未知但与临床相关的模式和关联方面具有巨大的潜力。随着机器学习成为研究武器库中的一种工具,研究人员必须提出一系列重要问题,包括:任务有多复杂,涉及多少变量?有多少示例用于训练和验证模型?模型需要如何解释和概括?这项任务可以用传统的统计方法来完成吗?如果是这样,机器学习方法会增加什么?

研究人员还必须熟悉所使用的方法和这种方法的局限性。了解这些问题有助于以适当的方式将研究转化为临床领域。

工具书类

  1. Jensen PB,Jensen LJ,Brunak S(2012)挖掘电子健康记录:走向更好的研究应用和临床护理。Nat牧师麝猫13: 395 - 405。
  2. 罗杰,吴敏,Gopukumar D,Zhao Y(2016)大数据在生物医学研究和医疗保健中的应用:文献综述。生物医学信息洞察8: BII.S31559。
  3. Aczon M(2017)使用递归神经网络预测儿科重症监护中的动态死亡率风险。ArXiv170106675 Cs数学Q-生物统计
  4. Kamaleswaran R(2018)应用人工智能识别picu严重脓毒症的物理标志物。重症监护19: e495-e503。
  5. Komorowski M、Celi LA、Badawi O、Gordon AC、Faisal AA T等。(2018)人工智能临床医生学会了重症监护中脓毒症的最佳治疗策略。Nat地中海24: 1716 - 1720。
  6. Meyer A(2018)机器学习实时预测重症监护并发症:一项回顾性研究。柳叶刀和地中海6: 905 - 914。
  7. Williams J, Ghosh D,Wetzel RC(2018)将机器学习应用于儿科重症监护数据。Pediatr。克里特医疗中心19日:599。
  8. Fabris F, Magalhaes JP, Freitas AA(2017)监督机器学习在衰老研究中的应用综述。Biogerontology18: 171 - 188。
  9. (2006)监督学习算法的经验比较。第23届机器学习国际会议论文集161-168 (ACM, 2006)。
  10. Barlow HB(1989)无监督学习。神经计算机1: 295-311.
  11. 基于深度卷积生成对抗网络的无监督表示学习。ArXiv151106434 Cs。
  12. Basheer IA,Hajmeer M(2000)人工神经网络:基础,计算,设计和应用。微生物学方法43: 3-31.
  13. Miikkulainen R(2019)第十五章-进化的深度神经网络。神经网络与脑计算时代的人工智能Kozma, R., Alippi, C., Choe, Y. & Morabito, F. C.) 293-312(学术出版社,2019)。
  14. Shamer K,Johnson KW,Glicksberg BS(2018)心血管医学中的机器学习:我们到了吗?104: 1156-1164.
  15. Jarrett D, Stride E, Vallis K, Gooding MJ(2019)机器学习在放射肿瘤学中的应用和局限性。放射科92: 20190001。
  16. Ananny M, Crawford K(2018)在不知道的情况下观察:透明度理想的局限性及其在算法问责中的应用。新媒体Soc20: 973 - 989。

编辑信息

主编

特里·利希托
Tsuyoshi Hirata
Shinya美津浓
Giacomo柯拉

文章类型

迷你评论

出版的历史

收到日期:2019年7月9日
录用日期:2019年7月19日
发布日期:2019年7月22日

版权

©2019 Farhat A。这是一篇根据知识共享署名许可证条款发行的开放获取文章,允许在任何媒体中不受限制地使用、发行和复制,前提是原始作者和来源均已获得授权。

引用

Farhat A,Shah N,Wang Z和Raman L(2019)机器学习:生物医学研究人员的简要概述。J翻译Sci 6:DOI:10.15761/JTS.1000343

通讯作者

拉克希米·拉曼

德克萨斯大学西南医学中心儿科系儿科副教授,达拉斯,德克萨斯-75390,美国

电子邮件:布瓦内斯瓦里。bibleraaj@uhsm.nhs.uk

表1。最近的研究使用机器学习方法来分析大量数据

文章

日志

人口

方法

结果

机器学习实时预测危重病患者并发症:一项回顾性研究

柳叶刀呼吸医学2018

http://dx.doi.org/10.1016/ S2213-2600(18)30300-X

47 559名ICU患者

接受心脏直视手术的成年患者

深度学习(递归神经网络)预测严重并发症

准确预测死亡率、肾衰竭和出血

机器学习在儿科重症监护数据中的应用

儿科重症监护医学2018

DOI:

10.1097 / PCC.0000000000001567

11384集PICU

K意味着集群

10个集群(基于死亡率、住院时间、通气、加压和诊断的使用),集群成员预测死亡率

应用人工智能识别PICU中预测严重脓毒症的生理标志物

儿科重症监护医学2018

内政部:10.1097/PCC.0000000000001666

493名ICU患者

逻辑回归、随机森林和深度卷积神经网络

预测败血症的特异性为83%,敏感性为75%

人工智能临床医生学习重症脓毒症的最佳治疗策略

自然医学2018年

https://doi.org/10.1038/s41591-018-0213-5

2个大型数据库(17083和79073名患者)

人工智能临床医生的强化学习和马尔可夫决策过程,以建模患者环境和轨迹

人工智能临床医生选择的治疗平均可靠地高于人类临床医生

基于递归神经网络的儿科重症监护动态死亡率风险预测

ARXIV

12000名患者

递归神经网络

RNN生成了ICU死亡率的时间动态预测——AUROC>93%,优于PIM2或PRISM 3。

图1所示。单隐层简单神经网络

图2。具有多个隐藏层的神经网络。每增加一层,连接或“突触”的数量就呈指数增长。这有助于提高网络的数据处理能力

图3。递归神经网络的一层。网络能够从其结果中学习,并可以改变隐藏层以提高其性能