人工智能可以预测流行性疾病
预测未知,一直是人类十分向往的能力。远不说国人熟悉的周易八卦、唐代道士编写的《推背图》,还有西方人熟知的占星术、中世纪流行起来的塔罗牌,近的比如说当年根据“2012世界末日”这一玛雅预言影响下出现的全民狂热和商业狂欢,依然让我们记忆犹新。
现在“不问苍生问鬼神”的时代已经过去,我们对物理世界及社会经济的确定性的、经验性的甚至概率性的预测都已轻车熟路。但比如说像“蝴蝶效应”描述的高度复杂的、超多变量以及超大数据量的预测,人类还是束手无策么?
答案并不是。
近日,我国武汉新型冠状病毒疫情的爆发引起世界卫生组织和全球多地卫生机构的密切关注。其中,《连线》杂志报道了“一家加拿大公司BlueDot通过AI监测平台率先预测和发布武汉出现传染疫情”的新闻,得到国内媒体的广泛关注。这似乎是我们在“预测未来”这件事上最想看到的成果——借助大数据沉淀基础和AI的推断,人类似乎正能够揣摩“天意”,揭示出原本深藏于混沌之中的因果规律,从而在天灾降临前试图挽救世界。
今天我们就从传染病预测出发,看看AI是如何一步步走向“神机妙算”的。
谷歌GFT频喊“狼来了”:流感大数据的狂想曲
用AI预测传染病显然不是Bluedot的专利,其实早在2008年,今天的AI“强手”谷歌,就曾进行过一次不太成功的尝试。
2008年谷歌推出一个预测流感流行趋势的系统——GoogleFluTrends(谷歌流感趋势,以下简称GFT)。GFT一战成名是在2009年美国H1N1爆发的几周前,谷歌工程师在《Nature》杂志上发表了一篇论文,通过谷歌累积的海量搜索数据,成功预测H1N1在全美范围的传播。就流感的趋势和地区分析中,谷歌用几十亿条检索记录,处理了4.5亿个不同的数字模型,构造出一个流感预测指数,其结果与美国疾病控制和预防中心(CDC)官方数据的相关性高达97%,但要比CDC提前了整整2周。在疫情面前,时间就是生命,速度就是财富,如果GFT能一直保持这种“预知”能力,显然可以为整个社会提前控制传染病疫情赢得先机。
然而,预言神话没有持续多久。2014年,GFT又再次受到媒体关注,但这一次却是因为它糟糕的表现。研究人员2014年又在《Science》杂志发布“谷歌流感的寓言:大数据分析的陷阱”一文,指出在2009年,GFT没有能预测到非季节性流感A-H1N1。从2011年8月到2013年8月的108周里,GFT有100周高过了CDC报告的流感发病率。高估了多少呢?在2011-2012季,GFT预测的发病率是CDC报告值的1.5倍多;而到2012-2013季,GFT预测流感发病率已是CDC报告值的2倍多。
尽管GFT在2013年调整了算法,并回应称出现偏差的罪魁祸首是媒体对GFT的大幅报道导致人们的搜索行为发生了变化,GFT预测的2013-2014季的流感发病率,仍然高于CDC报告值1.3倍。并且研究人员前面发现的系统性误差仍然存在,也就是“狼来了”的错误仍然在犯。
到底GFT遗漏了哪些因素,让这个预测系统陷入窘境?
根据研究人员分析,GFT的大数据分析出现如此大的系统性误差,其收集特征和评估方法可能存在以下问题:
一、大数据傲慢(BigDataHubris)
v也就是GFT认为“采集到的用户搜索信息”数据与“某流感疫情涉及的人群”这个总体完全相关。这一“自大”的前提假设忽视了数据量巨大并不代表数据的全面和准确,因而出现在2009年成功预测的数据库样本不能涵盖在之后几年出现的新的数据特征。也是因为这份“自负”,GFT也似乎没有考虑引入专业的健康医疗数据以及专家经验,同时也并未对用户搜索数据进行“清洗”和“去噪”,从而导致此后流行病发病率估值过高但又无力解决的问题。
二、搜索引擎演化
同时搜索引擎的模式也并非一成不变的,谷歌在2011年之后推出“推荐相关搜索词”,也就是我们今天很熟悉的搜索关联词模式。
比如针对流感搜索词,给出相关寻求流感治疗的list,2012年后还提供相关诊断术语的推荐。研究人员分析,这些调整有可能人为推高了一些搜索,并导致谷歌对流行发病率的高估。举例来说,当用户搜索“喉咙痛”,谷歌会在推荐关键词给出“喉咙痛和发烧”、“如何治疗喉咙痛”等推荐,这时用户可能会出于好奇等原因进行点击,造成用户使用的关键词并非用户本意的现象,从而影响GFT搜集数据的准确性。
而用户的搜索行为反过来也会影响GFT的预测结果,比如媒体对于流感流行的报道会增加与流感相关的词汇的搜索次数,进而影响GFT的预测。这就像量子力学家海森堡指出的,在量子力学中存在的“测不准原理”说明的一样,“测量即干涉”,那么,在充斥媒体报道和用户主观信息的搜索引擎的喧嚣世界里,也同样存在“预测即干涉”悖论。搜索引擎用户的行为并不完全是自发产生,媒体报道、社交媒体热点、搜索引擎推荐甚至大数据推荐都在影响用户心智,造成用户特定搜索数据的集中爆发。
为什么GFT的预测总是偏高?根据这一理论,我们可以知道,一旦GFT发布的流行病预测指数升高,立刻会引发媒体报道,从而导致更多相关信息搜索,从而又强化GFT的疫情判断,无论如何调整算法,也改变不了“测不准”的结果。
三、相关而非因果
研究人员指出,GFT的根源问题在于,谷歌工程师并不清楚搜索关键词和流感传播之间到底有什么因果联系,而只是关注数据之间的——统计学相关性特征。过度推崇“相关”而忽略“因果”就会导致数据失准的情况。比如,以“流感”为例,如果一段时间该词搜索量暴涨,可能是因为推出一部《流感》的电影或歌曲,并不一定意味着流感真的在爆发。
一直以来,尽管外界一直希望谷歌能够公开GFT的算法,谷歌并没有选择公开。这让很多研究人员质疑这些数据是否可以重复再现或者存在更多商业上的考虑。他们希望应该将搜索大数据和传统的数据统计(小数据)结合起来,创建对人类行为更深入、准确的研究。
显然,谷歌并没有重视这一意见。最终在2015年GFT正式下线。但其仍在继续收集相关用户的搜索数据,仅提供给美国疾控中心以及一些研究机构使用。
为什么BlueDot率先成功预测:AI算法与人工分析的协奏曲
众所周知,谷歌在当时已经在布局人工智能,2014年收购DeepMind,但依然保持它的独立运营。同时,谷歌也没有GFT再投入更多关注,因此也并未考虑将AI加入到GFT的算法模型当中,而是选择了让GFT走向“安乐死”。
几乎在同一时期,今天我们所见到的BlueDot诞生。
BlueDot是由传染病专家卡姆兰·克汗(KamranKhan)建立流行病自动监测系统,通过每天分析65种语言的约10万篇文章,来跟踪100多种传染病爆发情况。他们试图用这些定向数据收集来获知潜在流行传染病爆发和扩散的线索。BlueDot一直使用自然语言处理(NLP)和机器学习(ML)来训练该“疾病自动监测平台”,这样不仅可以识别和排除数据中的无关“噪音”,比如,系统识别这是蒙古炭疽病的爆发,还仅仅是1981年成立的重金属乐队“炭疽”的重聚。又比如GFT仅仅将“流感”相关搜索的用户理解为可能的流感病患者,显然出现过多不相关用户而造成流行病准确率的高估。这也是BlueDot区别于GFT在对关键数据进行甄别的优势之处。
就像在这次在新型冠状病毒疫情的预测中,卡姆兰表示,BlueDot通过搜索外语新闻报道,动植物疾病网络和官方公告来找到疫情信息源头。但该平台算法不使用社交媒体的发布内容,因为这些数据太过杂乱容易出现更多“噪音”。
关于病毒爆发后的传播路径预测,BlueDot更倾向于使用访问全球机票数据,从而更好发现被感染的居民的动向和行动时间。在1月初的时候,BlueDot也成功预测了新型冠状病毒从武汉爆发后,几天之内从武汉扩散至北京、曼谷、汉城及台北。
新冠病毒爆发并非是BlueDot的第一次成功。在2016年,通过对巴西寨卡病毒的传播路径建立AI模型的分析,BlueDot成功地提前六个月预测在美国佛罗里达州出现寨卡病毒。这意味着BlueDot的AI监测能力甚至可以做到预测流行病的地域蔓延轨迹。
从失败到成功,BlueDot和谷歌GFT之间究竟存有哪些差异?
一、预测技术差异
之前主流的预测分析方法采取的是数据挖掘的一系列技术,其中经常用到的数理统计中的“回归”方法,包括多元线性回归、多项式回归、多因Logistic回归等方法,其本质是一种曲线的拟合,就是不同模型的“条件均值”预测。这也正是GFT所采用的预测算法的技术原理。
在机器学习之前,多元回归分析提供了一种处理多样条件的有效方法,可以尝试找到一个预测数据失误最小化且“拟合优度”最大化的结果。但回归分析对于历史数据的无偏差预测的渴求,并不能保证未来预测数据的准确度,这就会造成所谓的“过度拟合”。
据北大国研院教授沈艳在《大数据分析的光荣与陷阱——从谷歌流感趋势谈起》一文中分析,谷歌GFT确实存在“过度拟合”的问题。也就是在2009年GFT可以观察到2007-2008年间的全部CDC数据,采用的训练数据和检验数据寻找最佳模型的方法所参照的标准就是——不惜代价高度拟合CDC数据。所以,在2014年的《Science》论文中指出,会出现GFT在预测2007-2008年流感流行率时,存在丢掉一些看似古怪的搜索词,而用另外的5000万搜索词去拟合1152个数据点的情况。2009年之后,GFT要预测的数据就将面临更多未知变量的存在,包括它自身的预测也参与到了这个数据反馈当中。无论GFT如何调整,它仍然要面对过度拟合问题,使得系统整体误差无法避免。
BlueDot采取了另外一项策略,即医疗、卫生专业知识和人工智能、大数据分析技术结合的方式,去跟踪并预测流行传染病在全球分布、蔓延的趋势,并给出最佳解决方案。
BlueDot主要采用自然语言处理和机器学习来提升该监测引擎的效用。随着近几年算力的提升以及机器学习,从根本上彻底改变了统计学预测的方法。主要是深度学习(神经网络)的应用,采用了“反向传播”的方法,可以从数据中不断训练、反馈、学习,获取“知识”,经过系统的自我学习,预测模型会得到不断优化,预测准确性也在随着学习而改进。而模型训练前的历史数据输入则变得尤为关键。足够丰富的带特征数据是预测模型得以训练的基础。经过清洗的优质数据和提取恰当标注的特征成为预测能否成功的重中之重。
二、预测模式差异
与GFT完全将预测过程交给大数据算法的结果的方式不同,BlueDot并没有完全把预测交给AI监测系统。BlueDot是在数据筛选完毕后,会交给人工分析。这也正是GFT的大数据分析的“相关性”思维与BlueDot的“专家经验型”预测模式的不同。AI所分析的大数据是选取特定网站(医疗卫生、健康疾病新闻类)和平台(航空机票等)的信息。而AI所给出的预警信息也需要相关流行病学家的再次分析才能进行确认是否正常,从而评估这些疫情信息能否第一时间向社会公布。
当然,就目前这些案例还不能说明BlueDot在预测流行病方面已经完全取得成功。首先,AI训练模型是否也会存在一些偏见,比如为避免漏报,是否会过分夸大流行病的严重程度,因而再次出现“狼来了”的问题?其次,监测模型所评估的数据是否有效,比如BlueDot谨慎使用社交媒体的数据来避免过多的“噪音”?
幸而BlueDot作为一家专业的健康服务平台,他们会比GFT更关注监测结果的准确性。毕竟,专业的流行病专家是这些预测报告的最终发布人,其预测的准确度直接会影响其平台信誉和商业价值。这也意味着,BlueDot还需要面临如何平衡商业化盈利与公共责任、信息开放等方面的一些考验。
AI预测流行病爆发,仅仅是序曲……
“发出第一条武汉冠状病毒警告的是人工智能?”媒体的这一标题确实让很多人惊讶。在全球一体化的当下,任何一地流行疾病的爆发都有可能短时间内传遍全球任何一个角落,发现时间和预警通报效率就成为预防流行疾病的关键。如果AI能够成为更好的流行病预警机制,那不失为世界卫生组织(WHO)以及各国的卫生健康部门进行流行病预防机制的一个办法。
那这又要涉及到这些机构组织如何采信AI提供的流行病预报结果的问题。未来,流行病AI预测平台还必须提供流行病传染风险等级,以及疾病传播可能造成的经济、政治风险的等级的评估,来帮助相关部门做出更稳妥的决策。而这一切,仍然需要时间。这些组织机构在建立快速反应的流行病预防机制中,也应当把这一AI监测系统提上日程了。
可以说,此次AI对流行病爆发提前成功地预测,是人类应对这场全球疫情危机的一抹亮色。希望这场人工智能参与的疫情防控的战役只是这场持久战的序曲,未来应该有更多可能。比如,主要传染病病原体的AI识别应用;基于主要传染病疫区和传染病的季节性流行数据建立传染病AI预警机制;AI协助传染病爆发后的医疗物资的优化调配等。这些让我们拭目以待。
责任编辑:ct
人工智能在心房颤动预测中的新进展
何康,武忠
四川大学华西医院心脏大血管外科(成都 610041)
通信作者:武忠,Email:wuzhong@wchscu.cn
关键词: 人工智能;心房颤动;心电图;综述
引用本文:何康,武忠.人工智能在心房颤动预测中的新进展.中国胸心血管外科临床杂志,2020,27(12):1472-1478.doi:10.7507/1007-4848.202005077
摘要
心房颤动(房颤)是最常见的心律失常之一,现全世界房颤患者众多,且随年龄增大,发病率上升。但是目前的辅助检查对于房颤的诊断率较低,鉴于人工智能(AI)广泛地运用到医学领域中,用AI诊断房颤也成为了研究热点。本文简单介绍了AI及其在房颤中的应用。
正文
心房颤动(房颤)是世界上最常见的一种心律失常,约占所有住院心律失常患者的1/3。我国房颤患者超过1000万,根据世界卫生组织(WHO)报告,全世界大约9000万人患有房颤,且随年龄增大新发患者增多,其患病率在50~59岁人群中达到5%,80~89岁人群中甚至达到10%。另外,房颤引起患者死亡的主要原因为进行性心力衰竭、心脏骤停及脑卒中等并发症。房颤患者卒中总体发生风险是无房颤患者的5倍,1年致残率和死亡率超过50%,1年复发率超过1/3[1]。值得注意的是,大多数患者为无症状或阵发性房颤,极大地增加了卒中甚至死亡的风险。因此,对于房颤相关危险因素进行干预控制或者早期准确检测房颤,能让医生尽早制订抗凝、消融等治疗方案,改善患者预后。
目前对于房颤的诊断方法有心脏触诊、光学体积描记术、血压监测振动法、心电图(ECG)等[2],其中金标准是12导联ECG。由于患者数量急剧增多,医生对于大量ECG有时不能做出准确的判断。同一份ECG,不同医生有不同判断,也影响对患者疾病的诊断。除此之外,大部分患者为无症状或阵发性房颤,短时间的ECG并不能抓取到实时的特异性波形,而24h动态ECG需要患者一直携带记录盒,对于识别房颤短暂性脑缺血发作仅有2.4%~13.9%的概率,延长可植入记录器监测36个月也只有30%的概率。这种持续监视器价格昂贵,并且给患者和临床实践带来了负担。
与此同时,由于互联网、云计算的发展[3],大数据时代使人工智能(artificialintelligence,AI)成为了可能并且迅猛发展。AI企图了解智能的实质,并生产出一种新的能以人类智慧相似方法做出反应的智能机器。现医疗使用较多的主要是自动语音识别、决策系统、影像分析、机器人、专家系统。鉴于AI强大的预测潜能,我们可以将其利用在房颤识别和预测方面,能够使临床实践变得更加有效、方便、个性化。
1 与传统数据分析比较
统计学强调推断,机器学习(machinelearning,ML)强调预测[4]。统计学方法核心是依据样本和人口学参数进行推断总体,我们需要先假设成立,再依据 P 值和检验方法判断此项是否成立而比较。然而AI和ML主要在算法的基础上,利用数据结构进行预测和推断。但是我们不应该将统计学和ML划分明确的界限,它们都属于同一类,只是用于处理不同的问题[4]。
2 人工智能
AI是计算机科学的一个分支,使机器和计算机系统模仿人类智力处理问题,包括ML、深度学习(deeplearning,DL)等(图1)。
2.1 机器学习
ML是聚焦计算机如何从数据中学习的科学技术[5]。它由统计学(寻找数据关系)和计算机科学(强调有效的计算机算法)的交互作用产生[6]。其研究使计算机依靠经验学习不断优化自身性能,达到真实模拟人类学习的目的。ML的过程大致分为数据预处理、特征选择、数据分类、模型训练及优化[4]。
2.2 深度学习
DL是ML中的一个新研究领域,目的在于构建类似人脑的神经网络[7]。神经网络含有多隐层的多层感受器,通过组合较低层输出形成更加抽象的高层表示属性类别或特征[8]。这种多层非线性运算模型,可采用从大量数据中学习有效的特征表示,广泛用于分类、回归等问题中。其包括人工神经网络、卷积神经网络等。
2.2.1 人工神经网络(artificialneuralnetwork,ANN)
人脑中有大量的神经元细胞和神经纤维,一个神经元发出多根轴突连接其它多个神经元,无数神经元之间互连形成错综复杂的网络。ANN基于此基本原理,形成一种模拟人脑组合众多信号计算单元的数学模型,对复杂信息能够简单统筹地处理。ANN由大量处理单元(神经元)构成(图2)[9-10],这些神经元排列成多层结构,层间神经元通过一定的权值(weight)互相连接[11],输入数据通过隐喻层的处理而产出相应结果。
2.2.2 卷积神经网络(convolutionneuralnetwork,CNN)
在众多的DL模型中,CNN是应用最为广泛的一类[12]。其仿造生物的视知觉机制,通过多次卷积计算,在图像、音频数据集特征提取分类方面,依靠其认知模式能力得到不错的结果。CNN不需要输入和输出之间精确的数学表达关系,却能够有效地学习两者之间的非线性映射关系(图3)[13]。
2.3 机器学习技术
尽管ML有很多策略和技术,但主要分为3种(图4)[4]:监督式学习(supervisedlearning)、无监督式学习(unsupervisedlearning)和强化学习(reinforcementleaning)。
2.3.1 监督式学习
监督式学习可由训练资料中学习到或建立一个模式,并依此模式推测新的实例[4]。监督式学习的任务就是依靠正确标签的训练资料,得到任何可能出现的输入值的输出,输出可能是预测或者是分类。比如给定一系列事先标签好的ECG数据训练,最终得到的模型便可以用来判断新的ECG是否属于正常。
2.3.2 无监督式学习
无监督式学习不需要预测结果,主要集中发现数据中不同变量之间基本的结构和关系。这种方法输入数据是不带标签的,输出数据也是未知的[14],系统也会依靠输入数据的基础寻找特定的模式。聚类分析是无监督式学习常用的算法,将研究对象按照一定的规则或标准分成不同的类别,每一类别都有其相应的特征。
2.3.3 强化学习
强化学习,又称再奖励学习,通过给定的输入数据和结果循环试验来学习行为。它包括有一个可以实时作用于环境的智能体(Agent)。当环境接受一个由Agent发出的动作后,其状态发生变化,同时产生一个强化信号反馈给Agent,Agent根据强化信号和环境当前状态再选择下一个动作(图5)[15]。
3 人工智能在房颤中的相关应用
目前AI在房颤方面的应用主要有两个方面,一是利用大量ECG数据进行模拟医生分类和判别房颤;二是收集患者的基线资料来预测房颤。由于无症状性或阵发性房颤患者日益增多,仅靠我们做短时程的ECG检测已经不能够做出最正确的判断。因此利用数据训练算法的研究已经呈井喷式发展。
3.1 利用心电图检测和预测房颤
因CNN在图像处理和特征提取方面的优势,便主要利用它来作为研究对象。绝大数研究使用监督式学习的CNN,且其中的步骤大致相同,即ECG数据预处理、特征提取和分类算法模型。通过识别ECG信号的ML技术已经取得了较大的成功和进步。目前的研究一般基于以下几点来对ECG特征进行提取。
3.1.1 基于心电图波形
许多基于识别P波特征建立的自动化算法已经取代了耗时耗力的长时程心电记录。现在越来越多的证据[16]表明即使是明显正常的心脏,发展为房颤的患者有倾向于房性心律失常的结构性改变。这些改变可能是缺血性或者栓塞性卒中的重要病理改变机制[17]。在房颤发生之前心房结构就出现了如心肌肥大、纤维化、心房增大等改变,这些导致了微弱的心电改变。同时,研究[18]表明在ECG上的窦性心律并不能完全表明心房功能。有近1/3经历了电复律的房颤患者,尽管ECG上显示窦性心律,但是左心房没有窦性收缩。另一项研究[19]中,近1/4行经食管超声心动图的患者,同样ECG有窦性心律,但左心房有房颤。因此,在ECG上改变不明显的P波可能反映的是心房局部的非窦性心电活动,虽然人眼难以发现,但是对这些细微的改变机器可以通过大量的数据训练而找出并以此为依据进行预测。Attia等[17]利用CNN建立了一个ECG算法模型,在窦性心律中间通过P波识别房颤,并且取得了很高的准确率。该研究团队纳入了180922例18岁以上患者的649931份正常窦性心律ECG(标准12导联,10s),将其按照7∶1∶2比例分为了训练集、验证集、测试集。对于无房颤患者使用的是所有收集到的ECG中第1个窦性心律波形,对于房颤患者则使用的是第1个房颤波形前31d内的第1个窦性心律。最终结果为曲线下面积(AUC)0.87,敏感性79%,特异性79.5%,F1比值39.2%,准确率79.4%。这项研究中,在正常窦性心律期间记录的具有AI功能的ECG在确定房颤的存在方面表现良好。这种可广泛获得的即时检查来识别房颤的能力具有重要的实际意义,特别是对房颤的筛查工作和对栓塞来源不明卒中患者的管理。
除了特征性的P波改变,对于ECG其它特征,例如QRS、T波等,也被考虑为可提取的特征供算法学习。Dai等[20]提出了一种在提取心房活动时减少QRS波残留的新型方法,在识别房颤中得到较高的准确性。Khamis等[21]将QRS波、T波形态纳入学习的范围,用5920份ECG训练算法,因综合了多种特征变量,最终平均F1比值为0.78。研究中所描述的特征和方法,其性能具有可比性并且未发生过拟合现象。ECG上波形复杂,除了明显的PQRST波以外,甚至可能存在人类无法察觉的不明显波形,却能被机器捕捉乃至成为决定性因素,这需要人们进一步的探索和验证。
3.1.2 基于心率变异性
除了对典型波形的研究,针对心率变异性(heartratevariability,HRV)也提出了不少模型。Chesnokov等[22]使用51份ECG样本对ANN和支持向量机分类器进行了训练测试,ANN得到最优的结果,敏感性76%,特异性93%,阳性预测值94%。该ANN模型能够在阵发性房颤发生(62±21)min之前进行实时预测。这就使得AI利用HRV这一特征提前预测房颤发生成为可能。因为该研究的模型只能提前约60min进行预测,所以如果能够将这一时间延长,对临床实践来说或许更有意义。Christov等[23]设计了一个线性分类算法,提取了数据中的44个特征,其中包括HRV、波形等,最终算法检测房颤F1比值为0.81。该研究人员将所有的特征进行了排序,结果为RR间期差异这一特征对总的F1比值贡献最大。Henzel等[24]使用4种基于RR间期的数据特征和线性分类器来自动化识别房颤和正常窦性心律。Boon等[25]则利用HRV的优化算法和非主导分类遗传算法来区分房颤信号,其主要分析了HRV的时域、频域特征,准确率达到了87.7%,并且所采用的HRV信号长度从30min降到了5min。因此,HRV作为反映心脏活动与否的重要指标,我们可以通过AI更加方便地分析逐次心搏之间的差异,即使是在医生看来正常的RR间期。
3.1.3 基于心电图时程
算法模型接受不同长短的ECG信号(几秒到数十秒)也可以有不同的准确率。现大多数研究采用12导联10s的ECG数据,但是存在所纳入的数据中信号不全的可能,这对整个模型的训练影响较大,同时,如果延长时长则增加了算法所要调节的参数,模型的处理速度便会降低。Fan等[26]通过融合多种CNN模型,从短时程ECG数据中有效地检测房颤。同时ML模型已经发展成可以进行远程监控预测并报警的系统。临床中患者ECG信号的时程不一,使机器接受不同长度的数据不仅避免了医生来选择,还能提高检测的准确性。Yao等[27]则提出了一种ATI-CNN(attention-basedtime-incrementalconvolutionalneuralnetwork)新型算法,利用CNN、长短记忆网络和一个集中模块综合了ECG时间、空间上的信息,能够接受不同长度ECG信号的输入,并且在实时处理中减少了一半的参数,对于模型的性能和速率都有所提高,最终检测房颤的F1比值达到了0.92。
3.1.4 基于心电图导联
通常我们采用8导联或12导联ECG记录心脏在各个方向上的电信号。大多数研究都是将患者12导联ECG数据输入模型中。但是Chen等[28]依然使用CNN,经过训练后发现使用单导联ECG数据所得到的模型性能只比使用全导联ECG的模型性能逊色一点。通常aVR导联在临床中容易被忽略,但是在该研究中其对于心律失常的检测综合性能是最优的。目前很多研究采用的数据均为单导联短时程,这不仅去除了过多干扰信号,还能够减少机器处理的数据量,加快了机器的整体速度。从不同导联入手,不断试验机器性能,或许也是行之有效的。
因此我们可以从该方面利用ECG数据来进行分析和预测,同时ML有相应的能力去处理我们想要处理的具体数据。
3.2 利用基线数据预测房颤
另外一个应用便是使用非监督式学习区分不同表型患者。临床上很多患者术前有房颤但术后没有,有的反之。这些情况的出现对于临床医生来说如若难以判断,将影响术前术后相关的治疗。非监督式学习的出现能够很好地处理这些问题。非监督式学习在心脏病学中的一个最有前景的应用便是对于心脏疾病的子分型或者是精准分型[4]。目前提出的精准医学表示根据患者的具体情况来确定具体的疾病预防和治疗方法。不同于传统“一刀切”的治疗方法,医疗人员会考虑患者基本信息的细微不同对诊疗手段进行适当调整和改变。心脏疾病大多是慢性、异质性、合并多种疾病,通常在疾病症状发生之前有很长时间的病理生理变化。许多疾病的概念如心力衰竭、冠状动脉粥样硬化性心脏病等大而宽泛,但是不同的分型有不同的发病机制[4]。因此,如果能将这类疾病进行具体的多种分型,不同的子型预后不同,提示风险特征不同,有利于医生及早发现高危患者从而进行早期的特殊管理。Pimor等[29]依靠无监督式学习中的使用密集表型数据的无偏差聚类分析算法,依据人口学统计学数据、患者的医学背景、血流动力学状况、治疗、症状、手术数据和住院结局等,将122例因二尖瓣关闭不全行手术的患者分为3种不同的表型。结果表型1代表低风险患者(危险因素较少,心室扩张较少),主要特征与总体人群无差异;表型2代表中危患者,主要为慢性阻塞性肺疾病病史的吸烟男性,超声心动图示心脏重构更明显;表型3代表高危患者,主要包括年龄较大的瘦小女性,多患有高血压、术前房颤等合并症患者。不同表型预后不同,提示风险特征不同。与表型1、2相比,表型3的患者更易因心血管事件再住院和发生术后长期房颤。因此依据表型不同可以及早发现高危患者,改善重度二尖瓣关闭不全患者的管理;对于无症状的表型3个体在早中期进行二尖瓣手术可以降低房颤发生风险;对于阵发性房颤患者,可以在瓣膜手术期间进行肺静脉隔离以防止术后房颤。这种无监督式学习的算法有助于对术前术后房颤的预测和对异质性疾病患者的管理。Budzianowski等[30]利用支持向量机预测肺静脉球囊消融术后早期房颤的复发率。AI在预测术后房颤的过程中,也可以依此来判断术后房颤发生的危险因素,如术前房颤、糖尿病、他汀类药物的使用等。
非监督式学习的聚类算法虽然没有监督式学习的算法使用广泛,但是由于现如今患者生活习惯和个体特征大相径庭,统一模版型的治疗或许不再适应每个人,更好地识别高危患者加以早期干预,或许是无监督式学习的应用所在。
4 前景
AI在医学的应用目前主要有两个方面,一是发现新的临床规律,二是促进精准医学发展。以往医学主要依靠统计学方法,但是样本不同于总体,会产生偏差。可一旦引入了云计算,医学研究进入大数据时代。巨大样本数据支持的情况下,医学更容易发现其中的规律,对临床更具有指导意义,甚至可能推翻之前的结论。随着技术不断更新发展,各种信息如电子病历档案基因组学、影像学资料、监护数据等,能够更好地为医生所利用。数据科学与医学的结合,可以开创全新的诊疗模式。不同的医院有不同的数据库资源,基于当前医疗资源共享平台,医生可以及时查看患者在不同时间不同地点的就诊记录,以此全面分析患者的健康状况。AI将使个性化医疗-个人健康数据的使用更加广泛,更容易为所有患者接受。个性化医学将是未来发展的方向。目前全世界房颤患者众多,麻省理工心律失常数据库(MIT/BIH)、美国心脏协会(AHA)心律失常数据库、阵发性房颤(PAF)数据库等所收集的大量ECG数据便是利用AI治疗房颤的数据基础。这些工具的应用是无限的,最终可能通过模式识别和早期诊断和干预,为房颤这样的慢性疾病带来更好的治疗。
AI类似技术通过移动设备进行实时决策和与患者接触可能会带来更好的结果,在智能手机和其它移动终端设备上使用配备AI的医疗应用程序和工具,可以减少对专家治疗的需求,为医疗系统节省大量的成本。许多智能手表推出的ECG功能,可以监测用户心率,发现某些心脏问题,如不规则的脉搏和房颤,从而提高对房颤的警惕性,做到早预防、早知晓[31]。Perez等[32]对AppleWatch检测房颤进行了研究,AppleWatch接收到不规则脉搏信号的概率很低,在收到不规则脉搏信号的参与者中,34%的人在随后检测中出现了房颤,同时后续不规则脉搏阳性预测值为0.84。因此,移动技术时代来临,此类电子装置对动态人群中房颤的检测和房颤持续时间的评估具有高度敏感性[33],可能是一种廉价的、非侵入性的长期房颤监测和管理方法。
Yan等[34]尝试了一种新型房颤检测方法,该方法应用智能手机摄像头分析无身体接触的面部光电容积描记信号。同时使用单数码相机和预先培训好的深度卷积神经网络(DCNN)分析多个患者信号,前瞻性地评估了高通量房颤检测的可行性。此方法不仅避免了一对一筛查,而且对患者要求很低,这样可以节约患者的时间并减少工作量。该研究为我们提供了一种全新的房颤检测方法,人脸识别房颤。
除此之外,房颤的发生通常因为心房的异位起搏点,导管射频消融是治疗方法之一。现利用AI技术不仅可以识别异位起搏点,还可以在射频消融过程中,利用AI三维重建技术,进行消融指数的自动化计算,实现更加充分、有效的治疗。当然,房颤发生有众多的机制,电生理机制、自主神经系统的作用、遗传学基础[1]等,我们期望未来可以借助AI更加深入地了解房颤。
5 问题和局限性
5.1 数据问题
数据是AI应用的基础。数据问题包括:(1)数据质量问题。准确的数据对准确的模型来说必不可少。如果用于调整模型的数据本身就存在偏差,那么该模型就难以泛化到大众。在国内外大多数医院里收集到的数据或多或少质量欠佳,直接用于算法得到的准确率偏低。如P波通常包含有众多的噪声,使得基于形态学特征的房颤监控准确率下降[2]。虽然有很多特征提取步骤,如独立成分分析、波形转换、光谱分析和熵值,但是在特征提取过程中会产生大量不相关冗杂的特征,不仅会降低预测的准确性,还会降低模型的处理速率。况且机器训练学习的数据种类是普遍的,占大多数的。一旦遇到少见的患者特征亦或是图像,因为缺乏此方面的提前学习,机器是难以诊断的。(2)标注问题。原始数据的庞大使得标注的工作量难以想象,很多人认为程序工程师只是在不断改进模型,但其实是在做数据的预处理。将AI应用在房颤的预测中,大多数研究需要专业的心脏病医生对数以万计的ECG数据进行标注。医生是高度个性化的,同一个检查结果不同医生会给出多种诊断意见,有时候对错难以辨别。标注需要的是金标准,如果对于数据的标注出现了错误,将会导致整个模型的准确率严重下降。(3)数据的花费问题。如此大量的数据应用花销也是巨大的。整个模型的试验调整也是耗费人力、物力的。
5.2 机器学习中的黑匣子
机器的不透明性和难解释性是一个重要的问题[10]。我们输入数据得到输出结果,称为预测。但是为什么机器会得到想要的结果,我们是不清楚的。尽管有许多方法技术解释了模型的结果,通过分析具体的参数和特征之间的权重来证实其正确性,强调了每一个预测结果最具区别的部分,但是我们还是不能够确切地知道ML和DL为何就能够做出正确的决策。医学领域中,疾病的诊断是有因果可循的,医生还是更加愿意相信自己多年的临床经验,从临床症状、直接的辅助检查来逻辑推理出正确的结果。因为没有生物学上的可靠依据,想要掌握推广AI技术也实属难事。
5.3 泛化问题
拟合一直是ML亟待解决的问题。虽然现在有很多研究都取得了不错的结果,敏感性、特异性、准确性等都很高,但是不能够代表此研究训练出来的模型可以推广。许多方法仅仅使用来自一个数据库的数据进行训练和测试,如MIT/BIH数据库甚至更小型的数据库。来自单个数据库的数据可能并不能很好地全面评估一个算法的表现力[2]。诊断和监控房颤的算法需要能够尽可能的泛化,同时还要有高特异性和高敏感性,但目前许多算法并不能满足所有的要求。
5.4 伦理问题
伦理一直是医学非常重视的方面。设想一个依靠ML诊断的患者发生了医疗事故,随后责任归属便出现了分歧。除此之外,数据必然包含了患者的隐私和临床信息。因此,合法使用这些信息也是重要的方面。尽管现在有了相应的法律法规,比如将患者的个人信息用于统计学目的是被允许的,但是出于尊重,在这些信息用于训练诊断和决策的AI模型之前,患者都应该有知情权[10]。
5.5 其它
目前AI还处于初级阶段,还有很多技术不成熟,加之基本都是程序设计师在构建模型,而临床医生鲜有参与。现在的AI是基于国际开源的一些模型,所以应用局限于语音图像识别;整个设计依靠现代简单的数学逻辑,难以构建遵循临床医学规律的具备逻辑推理能力的数据模型,因此对于房颤这类临床疾病预测是有潜在干扰的。AI应用在基层医疗理论上是可行的,但是许多基层医生对于机器得出的结果有时难以抉择,对疾病的准确诊断存在一定风险。
6 结语
AI看起来遥不可及,然而它已经渗透到医疗领域的方方面面。由于云计算、大数据的快速发展,医学乘上时代的快车,利用AI来为医务人员和患者服务。随着ML、DL技术的发展和应用,患者在利用常规辅助检查诊断时,可以考虑使用AI来预测和识别房颤。对于患者来说,能早期识别房颤、降低卒中等并发症的发生率、明显改善预后、提高生活质量;对于医生来说,能早期识别疾病、尽早加以干预、调整治疗方案,同时还能减轻工作负担。但是,在AI广泛应用到临床实践之前,我们还有很长的一段路要走。算法模型的各种问题亟待解决,同时也要求医疗人员去了解掌握数据科学并参与其中的构建,这样医生才能足够信任机器去替代自己进行一部分工作。
利益冲突:无。
作者贡献:何康参与文章的撰写和修改;武忠对文章的相关内容进行指导和修正。
封面图片来自网络,如侵删
糖尿病患者人工智能干预的研究进展
4.糖尿病患者远程监测式的人工智能干预。数字工具和传感器结合人工智能可以实施对患者症状、生理数据、行为、社会和环境的前瞻性实时、持续、和无负担的远程监测[23-24]。例如,一个综合智能手机应用程序,对患者血糖仪传输的血糖读数、饮食、运动、糖尿病教育以及与医务人员沟通能力等进行跟踪,结果在干预的12周内糖化血红蛋白降低0.6%[25]。其次远程监测模式与糖尿病治疗的常规随访模式相匹配,已证明在帮助患者维持或改善健康方面取得了成功[26]。一项关于糖尿病远程监测的随机对照试验,将患者随机分配到干预组(12个月期间的2次亲自探访和两次远程监测)或对照组(12个月期间的4次亲自探访),12个月后,2组患者的糖化血红蛋白、血压、血脂或体质量指数均无显著差异;且与对照组相比,干预组的平均体质量下降幅度更大[27]。Ciemins等[28]的为期3年研究还发现,使用远程监测治疗和面对面治疗的糖尿病患者有着相似的积极健康结果。最近,对已发表的糖尿病远程医疗进行的多项荟萃分析确定,与非远程医疗组的患者相比,参与远程医疗干预的患者平均糖化血红蛋白降低幅度更大[26,29-31]。除了这些积极的结果,还报告了对节省时间和花费的高满意度[27,32-33]。总体而言,这些发现证实了远程糖尿病护理模式可能比现场护理模式产生类似或更好的健康结果,具有更大的时间和成本效益。
6.糖尿病治疗闭环系统式的人工智能干预。糖尿病治疗闭环系统由持续葡萄糖监测系统(CGMS)、胰岛素泵及控制算法组成,旨在模拟人体胰腺对血糖变化进行自动调节。它需要高度个体化的算法以精细灵活地控制血糖,其中基于机器学习的算法是一种多学科融合的算法,是人工智能的核心,高佳林[35]对自动控制领域的算法和机器学习领域的算法对比研究,发现由于血糖值和胰岛素值之间的关系并不稳定,是一种非线性的关系,并且不同类型的糖尿病患者血糖系统各不相同,一种控制算法不能适用于各种患者,而兴起的机器学习领域算法能带来新的研究方向。
运动及进餐仍是目前患者全天应用闭环系统的两大挑战,AI算法有助于及早地在控制过程中自动检测出这些因素,并采取相应的措施提高患者生活质量。Samadi等[36]对基于CGM数据分析的进餐检测系统使用模糊系统来估计碳水化合物含量,并应用于30例1型糖尿病患者中,结果显示,检测进餐事件的灵敏度及假阳性率分别为91.3%及9.3%,碳水化合物估计的绝对误差为23.1%。Turksoy等[37]使用隶属于机器学习算法的邻近算法自动检测闭环系统运行时的运动类型和强度,并在5例1型糖尿病患者中的测试结果显示其灵敏度为98.7%。此外,随着糖尿病新技术产生的数据呈指数级增长,自动化决策支持系统(DSSs)将在糖尿病管理中发挥主导作用[38]。第一个通过FDA审查的自动化决策支持算法[39]显示出的决策结果在统计上与来自世界各地17个不同中心的内分泌学家得出的结果没有什么不同。随着糖尿病护理越来越依赖于复杂的生物标志物驱动的风险预测方法来优化护理目标,并根据个体患者的利益来优先选择治疗方案,DSS系统将成为指导临床医护人员和患者决策的不可或缺的工具[40]。
人工智能干预对糖尿病患者的影响
2.在糖尿病患者娱乐生活方面的影响。糖尿病患者心理健康是一个迫切需要关注的问题,长期疾病带来的躯体残疾、功能受损及负面感受易使患者产生精神心理疾病,如抑郁、焦虑等。为解决这个问题,社交辅助机器人被研发,使患者产生积极的情绪,并通过视觉、听觉和触觉促进多感官的互动,改善其焦虑抑郁等症状[43]。此外,与传统的宠物疗法相比,陪伴机器人除了提供娱乐外,还具有以下优势:陪伴机器人更清洁,减少患者感染传染病的风险;不会对其造成身体上的伤害;管理机器人的负担也更小。
4.在糖尿病患者身体康复方面的影响。美国等国家研制出了上肢康复机器人、Lokomat下肢康复机器人、穿戴型助理机器人及下肢助动外骨骼等智能康复机器人,能根据患者的身体状况,提供不同的康复模式(主动模式、辅助模式、被动模式)和不同强度的运动,帮助患者进行关节、肢体的功能康复和步态训练,从而改善肢体功能,具有积极的康复效果,大大促进了预后。
展望
本文综述了人工智能在糖尿病护理中的最新应用,基于这些成功,我们可以预期,人工智能将带来糖尿病护理的模式转变,从传统的管理策略转向建立有针对性的数据驱动的精确护理。目前仍然有几个关于数字健康的问题有待回答。第一,需要进行经济分析,以确定远程医疗会诊是否应在所有社区中取代传统的面对面糖尿病护理。第二,市场上有成千上万的应用程序,一个可扩展的移动健康干预应该是全面的,帮助患者通过糖尿病和生活方式管理的所有方面,以增强糖尿病护理的最大潜力。开发者是否应该推广其内容和设计同时满足患者需求和医生建议的应用程序。第三,如何改进现有技术之间的互操作性,整合现有的糖尿病护理设备,让患者受益。
糖尿病世界的数字化已经对治疗产生重大影响,但对糖尿病研究也有相当大的影响。糖尿病电子流行病学领域正在迅速发展,用新技术收集大量的数据,同时允许使问强大的人工智能方法对它们进行分析。传统的队列研究现在正越来越多地被电子群组所取代——大量的人群通过电子问卷在线跟踪,并通过联网设备和电子健康记录被动监控,这将彻底改变研究招募和数据收集的模式。其次,这些数据可能会深刻改变从一个控制糖化血红蛋白是黄金标准的时代,到一个个性化的糖化血红蛋白检测方法结合参数设备,包括范围、时间内血糖,血糖变异性等的时代,这将帮助临床医护人员为患者设计个性化的糖尿病管理。人工智能方法还将有助于设计出更精确的风险预测模型诊断糖尿病和糖尿病并发症,反过来,有助于个性化治疗、护理、监测和管理策略,从而推动我们在糖尿病精准医疗方面的进步。
参考文献(略)返回搜狐,查看更多
人工智能在疾病预测中的应用
导出引用管理器EndNote|ReferenceManager|ProCite|BibTeX|RefWorks
链接本文:https://www.nature.shu.edu.cn/CN/10.3969/j.issn.0253-9608.2018.05.004
https://www.nature.shu.edu.cn/CN/Y2018/V40/I5/349