人工智能软件的分析与验证(1)
人工智能软件的分析与验证(1)-AI软件的可靠性与落地方法随着深度学习革命的不断发展,AI算法驱动的软件产品越来越影响我们的生活。比如人脸识别、机器翻译等应用越来越广泛,技术也在像纵深方向发展,比如像自动驾驶从L2向L5不断迭代。但是,一个硬币往往是有两面的,随着AI软件复杂性的提升,可靠性问题、安全问题的重要性也成为躲不过的关口。算法工程师的技术栈也是有限的,对于传统的软件工程、软件分析、软件验证等方向上加的技术点容易不足。所以指望算法工程师同学靠自测来避免可靠性问题可能并不是银弹,我们需要一个跨学科的方法论来征服这片新大陆。
AI软件可靠性概述按照中国计算机学会软件工程专业委员会2020年发布的《智能软件可靠性的研究进展与趋势》的分类,AI软件可靠性的分类如下图所示:
其中上面的部分,也就是数据可靠性的部分,是算法同学们比较熟悉的,不仅受过专业的训练,而且在实战中也积累了比较丰富的经验。所以我们后面遇到就具体问题具体分析,直接讨论细节。下面的部分,也就是软件和硬件平台的可靠性,是工程同学比较熟悉的,可能深度学习框架和AI加速芯片等新因素带来的一些新挑战,但是跟传统的软件还是一脉相承的。相对复杂一些的是中间的部分,也就是模型可靠性部分,比如可解释性就是一个一直以来算法的难题。对于AI软件的正确性分析,也是一个较新的课题。这一部分的困难在于,需要对于软件工程、程序分析等传统软件技术要有一定深度的了解,同时还要对深度学习算法等有精深的理解。
如何保障AI软件的可靠性上面讲的三类可靠性,大家应该是都认可的,但是只有这些理论还太虚,我们需要讨论如何落地。
如果要保障AI软件的可靠性的话,办法无非两种:一种是测试,一种是正确性验证的方法。
我们先看下知识体系的大图:
测试的话其实挑战相对更小一些,只是相对。首先,我们有生成对抗网络这样的利器,这是AI软件独有的方便。其次,在传统测试中发挥重要作用的模糊测试和符号执行,在AI软件中还是可以使用。第三,写测试脚本时,需要指定验证所期望的结果,这方面有蜕变测试等方法可用。第四,参照普通软件的coverage测试,我们可以对AI软件也进行神经元级、网络层次级的覆盖率测试,也可能进行MC/DC分支情况覆盖率测试。
验证方面,也有传统技术和深度学习结合的方法,比如基于SAT/SMT求解器的约束求解方法,基于抽象解释的方法。针对AI模型,也有其个性化的属性,比如局部鲁棒性属性、区间属性等,其基础是利普希茨属性。利普希茨属性是一个连续性属性,有点类似于我们学习微积分时的连续性概念,它主要限制的是函数变化的速度。我们在神经网络中,主要限制的是向量之间的变化速度,也就是范数的变化值。在不同的函数中,变化最大值是个常数,叫做利普希茨常数,这个值在实践中我们需要做一些估计。
这一节就先说这么多,后面我们针对测式和验证两个方向依次展开。
人工智能在临床领域的研究进展及前景展望
人工智能(artificialintelligence,AI)最初由JohnMcCarthy在1956年提出[1],KAPLAN和HAENLEIN[2]将AI描述为系统性处理并学习外部数据以实现特定目标和任务的能力。AI是指可模仿人类智能特征的计算机算法,其成功得益于计算能力及数据可用性的巨大增长。过去十年来,基于机器学习(machinelearning,ML)算法的AI应用已在计算机视觉(computerversion,CV)等领域中取得了巨大突破。AI的研究内容主要包括机器学习、神经网络、智能机器人、自然语言理解、语义识别和图像处理等[3]。
20世纪70年代开始,AI方法被应用于医疗领域以提升疾病诊治的效率,进而出现了医学人工智能(artificialintelligenceinmedicine,AIM)[3]。20世纪80年代后,决策树、随机森林、支持向量机等多种ML算法被提出,使AIM得以发展成熟。经典ML算法可分为有监督学习、无监督学习及强化学习等3类。ML是当今最常用的AI技术,其数学模型是基于庞大的训练数据集而设计的。自21世纪以来,深度学习(deeplearning,DL)的出现使AIM进入了崭新的发展阶段。目前DL已成为AI领域最流行的研究方法。
目前,医学界已利用AI技术对临床实践的不同步骤进行自动化研究,为临床决策提供支持。在各医学领域中应用AI方法有利于提高诊断的准确性并减少时间和人力消耗。基于AI的最新进展,智能筛查、智能诊断、风险预测和辅助治疗等是正经历颠覆性转变的典型应用。
当今,我们比既往任何时候都更接近AI的临床应用,基于AI的个性化远程医疗时代即将到来,如图1。因此,临床领域的专业人士均需了解AI技术的基础知识,帮助医学界获得AI相关的背景知识,包括AI的研究进展及前景展望,旨在带来更高质量的研究并激发新的研究方向。
医学数据可从便携式检查仪器中收集,随即通过互联网传输到远程医疗平台;基于AI的远程医疗平台将分析医疗数据进行诊断,并为用户提供个人精确医疗的补充建议图1基于AI的个性化远程医疗示意图图选项1AIM的常见技术AI的发展主要出现了符号主义和连接主义两个历史方向(图2)。20世纪80年代开始流行的专家系统是符号主义的经典例子;自20世纪90年代以来,基于连接主义的学习方法逐渐兴起,其优势在于由数据而非人工专家提供准确性保证[4]。
图2AI技术的发展方向图选项1.1机器学习机器学习(machinelearning,ML)的概念由SAMUEL在1959年提出,可表述为数据赋予计算机无需明确编程即可学习的能力[5]。QUINLAN(1986年)[6]提出了决策树(decisionTree,DT)算法,可依据既定规则完成数据分类。VLADIMIR(1995年)提出了支持向量机(supportvectormachines,SVM),它是一种广泛使用的监督ML算法,常用于分类和回归问题[7]。HO(1998年)[8]提出了随机森林(randomforest,RF)算法,可有效完成特征提取。
近年来,ML已被越来越多地应用于医疗领域,旨在帮助医师预测疾病及预后效果。ML的发展已经达到了重要的里程碑,可获得与人类专家相似甚至更好的准确率。典型的监督任务包含回归和分类,无监督任务包含降维、聚类、离群值检测等,而半监督学习是介于有监督和无监督之间的混合框架,其应用示例包括使用部分标记数据对图像进行分割或分类等[9]。三者关系见图3。
红色、蓝色代表已知的两个分类,灰色代表未分类标签;有监督学习依赖于已知的输入-输出对;若某些输出标签难以获得或代价高昂,则可考虑使用半监督学习;若无可用标签,则无监督学习允许获取更具探索性的数据方法A:有监督学习;B:半监督学习;C:无监督学习图3有监督、半监督及无监督学习展示图选项ML技术仍存在较大的不足及改进空间。临床医师希望了解临床决策所依据的科学基础,以便能独立判断有效性并确保其适用于各类患者。然而,临床医师无法从ML技术中直观地获取底层机制,进而了解如何针对特定临床情况提出具体建议,这通常被称为“黑箱”问题。尤其是当临床医师的既往经验与AI方法的建议存在冲突时,医师往往会对AI方法缺乏信任,推进“可解释AI”的工作可能会在将来解决此问题。
1.2深度学习自20世纪90年代以来,ML方法不断发展和改进,进一步诞生了目前流行的深度学习(deeplearning,DL)。DL一词最早由AIZENBERG和HINTON等于21世纪初提出[10],是指ML算法的一个子集,其称为“深度”的原因是在多个层次上分层组织,可自动从大数据中提取有意义的特征。图像识别的发展包括文本识别、数字图像识别和目标识别3个阶段。近年来,基于DL技术的图像处理逐渐被提出与推广,出现了一些以全自动医学图像检测分类和分割为目的的研究。
目前,卷积神经网络(convolutionalneuralnetwork,CNN)被广泛应用于医学图像处理,该架构具有两条路径以提取不同尺度的特征;此后树状结构的多任务全卷积网络(FCN)被提出,具有高效的端到端网络结构[11]。RONNEBERGER等[12]提出了U形卷积网络(U-Net),在各种医学图像分割任务中表现良好,目前已成为医学图像分割的基准网络,见图4。
U-Net包含编码器(下采样)、解码器(上采样)和跳跃连接部分,有利于高效提取医学图像特征图4U-Net网络结构图选项当前,DL在医学图像领域的应用已得到了广泛进展,但其仍存在一定的应用限制。首先,医学数据集具有不均衡性,且往往为单中心、少样本量数据,但DL对于高质量大数据的依赖性较强,可能带来较大的经济学成本。其次,DL模型中学习参数量较多、存在过拟合风险,在应用中缺乏稳定性与可重复性。最后,与ML技术类似,DL同样存在“黑箱”问题,影响了临床应用中医患双方的接受程度。因此,应选择适宜的医疗领域应用DL技术,以提升辅助诊治的准确性。
1.3专家系统专家系统(expertsystem,ES)是模拟人类专家决策能力的计算机系统,它可利用现有的知识系统推理和解决一系列复杂问题,是较早获得成功的AI软件之一[13]。ES的开发阶段大致可分为启蒙期(1965-1971年)、发展期(1972-1977年)和成熟期(1978年至今)3个阶段。当前,ES已经表现出了较强的临床决策能力,在疾病筛查及诊断等方面具有较大优势。但ES较为依赖人工专家,而人工专家可能犯错或具有主观倾向性。后续应用中仍需整合医师的临床经验和患者病史,进而提升系统的准确性。此外,ES的应用中需要不断更新医学知识和发现,进而为临床医师提供前沿诊断和治疗计划。
1.4智能机器人1979年,美国机器人研究所提出了智能机器人(intelligentrobots,IR)的概念,将其定义为一种可重新编程的多功能机械手,旨在利用各种编程材料、部件、工具以执行任务[14]。自20世纪80年代开始,IR已逐渐被应用于外科手术。目前,经FDA批准的机器人手术系统包括宙斯(ZUES)、达芬奇(DaVinci)和自动内窥镜系统等。IR具有微创、精准及智能的优势,已被广泛应用于骨科、妇科、泌尿科及口腔科等诸多领域。
既往临床实践中应用的IR往往是移动能力受限的离散型机器人。近年来,连续型机器人被提出,是一种具有“无脊椎动物”柔性结构的新型仿生机器人,其具有灵活的弯曲特性及良好的环境适应性,将有望逐渐取代离散型机器人、成为未来外科手术的主力军[15]。但IR目前仍然存在成本较高、体积较大及应用范围受限等劣势。
1.5医疗物联网物联网可被定义为具有通信和传感能力的网络物理系统的普遍存在,目前已被广泛应用于医疗领域,进而诞生了医疗物联网(theInternetofmedicalthings,IoMT)的概念[16]。IoMT主要采用移动传感器收集医疗相关的人体数据,进而支持临床诊治决策,具有较好的经济性、易用性和可访问性[17]。
IoMT使用各种传感器实时监测患者的健康状况,进而实时获取体温、心率、脉搏及血氧等生命体征。这些医疗设备监控患者的健康状况,收集临床数据并通过远程云数据中心发送给医生。基于IoMT的可穿戴医疗系统可以提供连续监测功能并收集大量医疗数据,进而为医师提供预测患者未来状况的有效依据。
2AIM的典型应用2.1智能筛查目前AIM技术已应用于多种恶性肿瘤的筛查中,可对疑似癌变区域的良恶性进行自动筛查。表1总结了近几年AIM技术应用于智能筛查方面的典型实例。
表1AIM技术在智能筛查方面的典型应用第1作者年份AI技术应用领域应用效果WU[18]2019DL胃癌盲点漏诊率5.9%CHEN[19]2020DL胃癌盲点漏诊率3.4%KIANI[20]2020DL肝癌测试准确度84.2%MORI[21]2018ML结肠癌预测准确率98.1%WANG[22]2019DL结肠癌腺瘤检出率29.1%SU[23]2020DL结肠癌腺瘤检出率28.9%LIU[24]2020DL结肠癌腺瘤检出率27.0%WANG[25]2020DL结肠癌腺瘤检出率34.1%VANDENBERGHE[26]2017DL乳腺癌分类准确率83.1%STEINER[27]2018DL乳腺癌转移检出率91.0%BARINOV[28]2019ML乳腺癌AUC值86.5%MANGO[29]2020ML乳腺癌AUC值87.0%LOTTER[30]2021DL乳腺癌灵敏度提升14.0%YOO[31]2018ML甲状腺癌检出灵敏度92.0%MASOOD[32]2018DL+IoMT肺癌分类准确率84.6%SIM[33]2020DL肺癌平均灵敏度70.3%URUSHIBARA[34]2021DL宫颈癌AUC值93.2%ESTEVA[35]2017DL皮肤癌分类效果与医师相当ABRÁMOFF[36]2018DL糖尿病视网膜病变灵敏度87.2%KANAGASINGAM[37]2018DL糖尿病视网膜病变特异度92.0%KEEL[38]2018DL糖尿病视网膜病变灵敏度92.3%NATARAJAN[39]2019DL糖尿病视网膜病变灵敏度85.2%WU[40]2019DL白内障AUC值99.7%LIN[41]2019DL白内障准确率87.4%WU[42]2018DL角膜炎灵敏度89.3%ML:经典机器学习;DL:深度学习;IoMT:医疗物联网;AUC:ROC曲线下面积表选项2.1.1消化肿瘤的筛查WU等(2019年)[18]及Chen等(2020年)[19]各自构建了基于DL的食管胃十二指肠内镜(esophagogastroduodenoscopy,EGD)图像处理系统,实现食管、胃及十二指肠疾病的早期筛查,盲点漏诊率各自降至了5.9%和3.4%,均明显低于未使用AI技术的传统方法。KIANI等(2020年)[20]构建了基于DL的肝脏病理图像处理系统,实现了肝细胞癌、胆管癌的自动筛查,在验证集上准确率为88.5%,在独立测试集上准确度为84.2%。MORI等[21]构建了基于ML的结肠镜图像分析系统,主要用于区分需要切除的腺瘤和不需要切除的非肿瘤息肉,其预测准确率为98.1%。WANG等(2020年)[25]构建了基于DL的结肠镜图像处理系统,结果表明AI组腺瘤检出率(adenomadetectionrate,ADR)明显优于传统组,可有效提高结肠镜下息肉及腺瘤的筛查效率。
2.1.2其他肿瘤的筛查VANDENBERGHE等(2017年)[26]提出了基于DL的切片病理图像分析系统,可实现乳腺癌的自动诊断、分类,以病理学结果为金标准时的总体准确率达到了83.1%。STEINER等(2018年)[27]提出了基于DL的胸部CT处理系统,转移检测的灵敏度达到了91.0%,实现了转移性乳腺癌的自动筛查。LOTTER等(2021年)[30]提出了一种具有注释效率的DL方法,该方法在乳房X光片分类等方面实现了最先进的性能,相较于乳腺影像专家,AI方法的平均灵敏度提升了14.0%。YOO等(2018年)[31]提出了基于DL的超声图像分析系统,将甲状腺癌的筛查灵敏度由84.0%提升至92.0%,实现了甲状腺结节良恶性的自动筛查。MASOOD等(2018年)[32]构建了基于IoMT和DL的肺部CT图像处理系统,实现了肺结节的恶变阶段预测,分类准确率达到了84.6%。
2.1.3眼科疾病的筛查NATARAJAN等(2019年)[39]利用DL方法处理视网膜图像,实现了糖尿病视网膜病变的自动筛查及严重程度分级,AI方法诊断严重病变的灵敏度和特异度各自为100.0%和88.4%,诊断总体病变的灵敏度和特异度各自为85.2%和92.0%。WU等(2019年)[40]构建了基于DL的眼部图像处理系统,白内障分类的ROC曲线下面积(areaundercurve,AUC)达到了99.3%~99.7%,实现了白内障的自动筛查及协作管理。WU等(2018年)[42]关于真菌性角膜炎诊断的研究表明,自动菌丝检测技术的灵敏度为89.3%、特异性为95.7%,AUC值为94.6%,可及时、准确、客观和定量地为真菌性角膜炎提供评估标准。
目前,AI智能筛查已广泛应用于肿瘤及眼科疾病的筛查中。但需要注意的是,模型准确性对医师的临床决策存在重大影响,当模型预测不准确时,其辅助筛查的效果往往大幅降低。此外,对于发病率较低、样本量较少的疾病,假阳性的存在是不容忽视的问题,建议采用人工审查的方式再次验证。因此,将AI模型应用于临床时仍存在较大挑战,当设计AI工具时应考虑模型辅助筛查的潜在负面影响。
2.2智能诊断当前,ML、DL、ES及IoMT技术均已应用于各类疾病的诊断,取得了较好的自动化效果,AIM技术应用于智能诊断的典型实例总结见表2。
表2AIM技术在智能诊断方面的典型应用第1作者年份AI技术应用领域应用效果ESHEL[43]2017ML疟疾灵敏度99.0%TURBÉ[44]2021DL艾滋病准确率97.8%MINAEE[45]2020DLCOVID-19灵敏度98.0%HUANG[46]2020DLCOVID-19严重程度预测AHUJA[47]2021DLCOVID-19准确率99.4%SHORFUZZAMAN[48]2021DLCOVID-19精确度95.5%QUIROZ[49]2021MLCOVID-19AUC值96.0%ARBABSHIRANI[50]2018DL脑卒中AUC值84.6%TITANO[51]2018DL脑卒中AUC值73.0%NAGARATNAM[52]2020DL脑卒中上门时间缩减45minLO[53]2021DL脑卒中AUC值99.27%BIBI[54]2020DL+IoMT白血病平均准确率99.6%HAMEDAN[55]2020ES慢性肾病灵敏度95.4%PARK[56]2019DL动脉瘤预测准确率85.9%WONG[57]2018ML溃疡预测准确率84.3%BIEN[58]2018DL膝关节外伤AUC值93.7%LINDSEY[59]2018DL骨折灵敏度91.5%FU[60]2019DL骨折可视化骨折分析YAO[61]2019DL+IoMT胆囊结石预测结石化学成分ML:经典机器学习;DL:深度学习;IoMT:医疗物联网;ES:专家系统;COVID-19:新型冠状病毒肺炎;AUC:ROC曲线下面积表选项2.2.1传染疾病的诊断2020年,新型冠状病毒肺炎(coronavirusdisease2019,COVID-19)的爆发为AIM技术提供了适宜的应用时机。AIM技术在COVID-19的诊断、分型、风险预测和辅助治疗等方面均取得了较好的进展。SHORFUZZAMAN等(2021年)[48]提出了一种结合迁移学习理念的深度学习融合框架,实现了对COVID-19患者的智能诊断,融合模型的分类精确度达到了95.5%。QUIROZ等(2021年)[49]证实,ML方法可用于COVID-19的自动严重程度评估,其有助于对COVID-19患者进行分类诊断,AUC值为96.0%、灵敏度为84.5%、特异度为92.9%,继而可确定后续诊治的优先级。
2.2.2内科疾病的诊断随着医学影像技术的发展及临床诊断精度的提升,基于DL技术的临床诊断方法得到了蓬勃发展。ARBABSHIRANI等[50]及TITANO等(2018年)[51]各自构建了基于DL的颅脑CT图像处理系统,AUC值达到了73.0%和84.6%,实现脑卒中等急性神经事件的自动检测。LO等(2021年)[53]基于DL提出了缺血性脑卒中自动诊断方法,灵敏度为98.1%、特异度为96.9%、AUC值为99.3%,可有效为临床医师提供急性缺血性卒中的诊断建议。BIBI等(2020年)[54]开发了一个基于DL和IoMT的系统,实现了白血病的快速安全识别与分类,平均准确率达到了99.6%;该系统可让医患双方实时沟通白血病的检测、诊断及治疗,进而有效节省临床医师的时间和精力。HAMEDAN等(2020年)[55]利用ES对慢性肾病进行分析,将AIM技术与人工专家意见结合,结果表明ES预测慢性肾病的效果较好,准确率、灵敏度和特异度分别为92.1%、95.4%和88.9%。
2.2.3外科疾病的诊断基于DL的图像识别技术在临床诊断中具有重要意义,可提高外科病变部位预测的准确度。BIEN等(2018年)[58]提出了基于DL的膝关节MRI处理系统,实现前交叉韧带撕裂、半月板撕裂等膝关节外伤的自动检测,AI模型可以从内部和外部数据集中快速生成准确的膝关节病理分类。LINDSEY等(2018年)[59]构建了基于DL的X线图像处理系统,实现骨折的检测与定位;在应用AI技术辅助后,临床医师检测骨折的灵敏度由80.8%提升至91.5%,特异度由87.5%提升至93.9%。FU等(2019年)[60]着眼于CT图像分析系统,实现股骨间骨折的自动诊断及可视化分析,识别最可能的骨折断裂区域。
目前,一些新兴AI技术已被广泛应用于内、外科疾病及传染病的智能诊断中,在临床决策中发挥了重要作用。AI模型的能力受纳入训练集规模的限制,基于某类数据集训练的模型可能无法在另一类数据集中获得良好表现,应注重在模型训练中适当加入外部测试集以评估其泛化能力。此外,多数基于AI技术的智能诊断方法仅限于分析医学影像信息,但临床上有效的研究终点需要基于医师对患者各项指标的总体评估。因此,在未来的研究中,应注重各项临床数据的综合运用,提高AI模型的有效性与可推广性。
2.3风险预测AIM可实现风险的自动评估与预警,提供有效的临床决策支持。AIM技术应用于疾病风险预测的典型实例见表3。
表3AIM技术在风险预测方面的典型应用第1作者年份AI技术应用领域应用效果MCCOY[62]2017ML败血症住院死亡率下降60.2%SHIMABUKURO[63]2017ML败血症住院死亡率下降58.0%GIANNINI[64]2019ML败血症预警特异度98.0%GINESTRA[65]2019ML败血症临床接受度45.0%CHEN[66]2018ML+IoMT糖尿病5G智能糖尿病系统KUMAR[67]2018ML+IoMT糖尿病移动医疗保健应用程序ROMERO-BRUFAU[68]2020ML糖尿病患者接受度58.0%BOUTILIER[69]2021ML糖尿病+高血压预测准确率91.0%CONNELL[70]2019ML肾衰竭移动检测应用程序AOKI[71]2020DL小肠破裂有效降低阅片时间BRENNAN[72]2019ML肾脏手术AUC值85.0%WIJNBERGE[73]2020ML心脏手术低血压时间缩减16.7minZHOU[74]2020MLCOVID-19预后相关标注物预测BOOTH[75]2021MLCOVID-19AUC值93.0%ML:经典机器学习;DL:深度学习;IoMT:医疗物联网;COVID-19:新型冠状病毒肺炎;AUC:ROC曲线下面积表选项2.3.1感染风险的预测严重败血症的死亡风险较高,因此败血症风险预测是提高干预效果的重要保障。MCCOY等(2017年)[62]提出了基于ML的电子健康档案(electronichealthrecords,EHR)数据处理系统,实现了败血症的风险预测。相较于实施前,实施后与败血症相关的住院死亡率下降了60.2%。SHIMABUKURO等(2017年)[63]同样对败血症进行了风险预测,平均住院时间降低了3d,平均住院死亡率下降了58.0%。GIANNINI等(2019年)[64]利用ML分析EHR数据,可用低灵敏度但高特异性的标准对严重败血症和败血症休克进行早期预警,该AI方法的特异度为98.0%。GINESTRA等(2019年)[65]分析了临床医师对败血症预警系统的接受程度,结果表明临床接受程度仍存在较大提升空间。
2.3.2慢病风险的预测CHEN等(2018年)[66]提出了5G智能糖尿病系统,为糖尿病患者生成全面的传感和分析,进而有效地为患者提供个性化诊断和治疗建议。KUMAR等(2018年)[67]设计了一种基于IoMT的移动医疗保健应用程序,实现了糖尿病的发病风险及其严重程度的判断。ROMERO-BRUFAU等(2020年)[68]利用ML分析患者数据,进而为血糖控制提供临床决策支持,患者接受度58.0%。BOUTILIER等[69]利用ML预测糖尿病及高血压的危险分级,将糖尿病预测准确率由67.1%提升至91.0%,将高血压预测准确率由69.8%提升至79.2%,且极大降低了糖尿病和高血压的预测成本。
2.3.3治疗风险的预测围手术期风险的发生与医疗成本及死亡率的增加密切相关。在智能决策支持平台中构建数据驱动的预测风险方法有利于减少临床医师的工作负担,提升风险预测效率。BRENNAN等(2019年)[72]利用基于ML的EHR数据处理系统实现肾脏手术术后并发症风险的自动评估;当使用AI算法后,风险评估AUC值由69.0%提升至85.0%。WIJNBERGE等(2020年)[73]构建了基于ML的血流动力学指标分析系统,实现了心脏手术术中低血压风险的自动预警;AI干预可将低血压中位时间由32.7min缩减至8.0min。BOOTH等(2021年)[75]构建了基于ML的COVID-19个性化死亡率风险评分系统,结果表明C反应蛋白(CRP)、血尿素氮(BUN)、血清钙、血清白蛋白和乳酸等血清生物标志物与COVID-19的严重程度及死亡风险密切相关。
目前,基于AI方法的预警系统已被提出和小规模实施,其应用领域包括感染风险预测、慢性病风险预测及治疗风险预测等。但临床医师对此类工具的看法仍存在分歧,分析原因在于以ML、DL为代表的AI方法,一般具有不透明性、不确定性,存在预测效果不稳定的风险,使部分临床医师对利用复杂AI方法开发的工具缺乏信任。此外,既往风险预测仅局限于单中心研究,其泛化性能尚未得到充分验证,后续需要对更多的群体进行深入研究,充分评估AI方法的安全性和可推广性。在可预见的将来,AI不太可能取代临床医师,但AI可以依据医疗大数据提供相关建议,进而作为临床医师的高效辅助。
2.4辅助治疗AIM技术应用于辅助治疗已有较多案例,效果比较理想,见表4。
表4AIM技术在辅助治疗方面的典型应用第1作者年份AI技术应用领域应用效果BIRD[76]2021ML直肠癌治疗剂量规划YANG[77]2021ML前列腺癌准确率84.6%NICOLAE[78]2020ML前列腺癌有效降低规划时间KATZMAN[79]2018ML+IoMT乳腺癌预测个性化治疗建议MCNAMARA[80]2019ML乳腺癌预测准确率95.3%KHOZEIMEH[81]2017ES皮肤疣预测准确率83.3%VOERMAN[82]2019ML败血症成本降低49.0%RAWSON[83]2021ML败血症抗菌处方建议SEGAL[84]2019ML心脏病预警有效率85.0%WANG[85]2019ML心脏病指导治疗时机HOOSHMAND[86]2020DLCOVID-19研发潜在药物KE[87]2020DLCOVID-19研发潜在药物ZHANG[88]2020IR骨科手术提升操作准确性XIE[89]2021IR胆道手术安全性和可行性好MATTHEIS[90]2019IR咽喉手术切除效果彻底TROISI[91]2019IR肝脏手术术后恢复更快ML:经典机器学习;DL:深度学习;IoMT:医疗物联网;ES:专家系统;IR:智能机器人;COVID-19:新型冠状病毒肺炎表选项2.4.1治疗决策支持放射治疗是多种肿瘤治疗的重要手段,治疗过程中需要密集地划定风险器官(organatrisk,OAR),进而为放疗提供指导,并预测预后。BIRD等[76]使用多中心数据集构建了ML模型,旨在获取适用于直肠癌准确、可推广的放疗方案。通过适当的验证研究和监管批准,以上方法可提高放疗的准确性和有效性。YANG等(2021年)[77]利用ML方法预测器官敏感性,进而估算出每个器官接受放射剂量的阈值,还分析了放射剂量与远期生活质量指标的相关性。NICOLAE等(2020年)[78]构建了基于ML的前列腺种植体规划系统,将治疗规划时间降至(2.38±0.96)min,为前列腺癌提供临床治疗决策支持。KATZMAN等(2018年)[79]提出了一个基于IoMT的智能健康监测系统,可展示个性化治疗建议并延长乳腺癌患者的生存时间。
2.4.2药物研发管理处方错误可引发高发病率和医疗负担。现有的处方错误预警系统效果较差,且伴随严重的虚假预警风险。RAWSON等(2021年)[83]构建了基于ML的抗菌处方决策系统,为抗生素管理提供临床决策支持,AI处方建议已达到接近临床医师的水平。SEGAL等(2019年)[84]提出了基于ML的处方识别系统,实现心脏病患者处方错误的自动预警及纠错,临床有效率为85.0%。HOOSHMAND等(2020年)[86]利用DL方法寻求抑制COVID-19的潜在药物,可识别出副作用最小、前景最好的COVID-19药物。KE等(2020年)[87]利用DL方法识别具有治疗COVID-19潜力的上市药物,最终确定了80余种有能力抗击冠状病毒的潜在药物。
2.4.3机器人手术目前,IR已广泛应用于骨科、胆道、咽喉及肝脏手术等领域。ZHANG等(2020年)[88]将IR技术应用于脊柱手术,可有效提升螺钉置入的准确性、减少术中透视次数并降低术后并发症发病率。XIE等(2021年)[89]利用达芬奇手术系统治疗1岁以下儿童胆道囊肿,结果表明IR具有较好的安全性与可行性。MATTHEIS等(2019年)[90]将经口机器人手术(TORS)应用于咽喉肿块切除,其可视化效果好,且未发生严重不良反应。TROISI等(2019年)[91]将IR用于肝脏手术,其优势包括减少失血与粘连,进而缩短入院时间与术后恢复时间。
当前,多种基于AI方法的决策支持工具已达到了与疾病专家判断一致的水平,可有效改善经验治疗决策、缩短治疗时间、降低成本。但目前多数辅助工具仅针对特定疾病,应用过程难度较高。用于分析的数据集中缺乏普遍接受和经过验证者,尤其是关于长期随访预后的数据,影响了决策支持工具的预测效果。增加病例的多样性有利于提高决策支持的价值。未来需扩充更多数据集,开发多中心、多站点规划系统以更好地进行临床治疗指导。
3AIM的前景展望3.1大数据质量治理医疗大数据是指医疗过程中产生的庞大而复杂的数据集,包含临床数据、影像数据、基因数据和移动健康数据等。医疗大数据具有海量性、准确性、易变性、多元性和隐私性,其质量是AIM发展的核心保证。AI方法通常需要大量样本的训练数据以提高灵敏度,将AI方法与大数据结合可在未来实现更高的预测精度和更广泛的应用。优化数据的收集与整理过程、提升数据质量是未来AIM发展推广的关键。训练数据库的错误或偏差通常直接反映在模型行为中,并对模型性能及临床结果均产生重大影响,因此数据质量是发挥医疗大数据价值的必要条件。
当前,医疗大数据收集的自动化程度仍然较低,数据收集和整理过程存在时间较长、成本较高的劣势。且因为各个医疗系统信息孤岛问题的存在,现有医疗大数据在完整性、准确性、细致性和一致性等方面存在诸多问题。正如医师需要熟悉临床指南一样,临床团队也应熟悉AI时代数据收集和管理的指导原则。AI领域最流行的数据整理原则包括可查找性、可访问性、可操作性和可重复性,而在临床应用中还需考虑医学领域的特殊性。
3.2新技术赋能革新通用人工智能(artificialgeneralintelligence,AGI)是未来AI发展的高级目标,旨在让AI像人脑一样自主学习、应用并解决各知识领域的问题。AGI的目标在于构建可媲美人类的AI,其实现方式、风险挑战是整个AI领域的研究热点问题。目前,强化学习、小样本学习及元学习等新型技术已被提出,可能成为AGI实现的重要契机,并为AIM的高质量未来发展赋能。
强化学习(reinforcementlearning,RL)又名增强学习,其应用特征为在交互中学习,利用交互所得信息调整学习策略,最终实现特定目标。在医学领域,RL可与DL技术结合为深度强化学习(deepreinforcementlearning,DRL),其优势在于综合了DL的感知能力及RL的决策能力,进而可获取实现目标的最优策略[92]。
小样本学习(few-shotlearning,FSL)可从少量样本中学习对象类别,一方面强调在少量样本中实施快速学习,另一方面强调对于新任务的泛化性能。医学数据往往存在样本量过少、数据标签有限和分布不均衡的问题,因此FSL将成为未来AIM的重要发展趋势之一。半监督、无监督或自监督学习有利于解决数据标签受限的问题;利用预训练过的模型(迁移学习)或组合模型(集成学习)同样是较为有效的联合策略。
元学习(metalearning)又名“学会学习”(learningtolearn),指利用既往的知识经验指导新任务的学习,可成为AI发展的又一个关键突破口[93]。当前DL的特征是只能从头开始训练,而元学习的提出有利于更好地利用既往知识,进而提高处理新任务的效率。将元学习和其他算法相结合有利于完成各项任务,例如用元学习方法实现RL或FSL。元学习方法还可与其他方法融合运用,进而发挥各自优势,如小样本元学习具有较高的实践价值。未来,元学习的发展目标是让AI拥有核心自主意识,是实现AGI的关键。
3.3多领域知识整合AI方法从符号主义到连接主义的转变、从浅层架构到深层架构的转变等均为医学领域带来了颠覆性的变革。只有医学界逐步接受AI技术,并将所有特定领域的知识整合到最先进的AI方法中,下一代用于医疗应用的AI方法才会出现。当前,AI应用仍存在研究设计难、效果预期难及原理解释难等挑战。整合特定领域的知识不仅有助于提高AI模型的先进性能,还可提高结果的可解释性,有效解决当前AI方法的局限性。黑箱问题的解决有利于提升ML的准确性和算力,进而为医学领域作出更大贡献。
多学科研究领域的整合是AIM的重要发展方向,包括医学成像、图像融合、自然语言处理等,可对疾病诊治的整个过程进行追踪研究。此外,利用基因组学、蛋白组学、影像组学等多组学数据融合的方式进行疾病诊治同样是近年研究热点,值得进行深入研究[94]。
总体而言,在过去几年中AI方法已经达到了重要的里程碑,在自动化医疗实践方面具有较大的潜力。然而,要将这些AI方法安全、完善地集成到临床工作流程中仍需要计算机科学、统计学、数据科学和医学等多学科的共同努力,进而支持下一代强大的AI方法,确保基于AI解决方案的稳健性及可解释性。
3.4个性化医疗决策在未来的发展中,AI在临床领域将面临更大的挑战。在数据挖掘和ML领域,研究人员发明了第五代无线技术(5G)及IoMT集成的连续机器人;在图像识别领域,需构建更有效的训练模式,以不断扩展数据集、为临床医师提供更多信息。
在过去十年中,随着我国、欧洲和美国的研究人员在AI领域取得了重大成就,与AI相关的文献数量也得到了迅速发展。借助5G网络的高速传输,远程协作手术的实时技术指导可保证手术的稳定性、可靠性及安全性。值得一提的是,中国正逐渐成为AI领域的领导者[95]。
为使每位患者获得最佳的治疗效果,个性化远程医疗的概念逐渐被提出和推广。为此,需要使用大数据训练并依据反馈更新高精度AI算法。随着便携式设备的发展,患者可在家完成简单的测试,并从AI计划中获得即时转诊建议。同时,所有数据也可发送至医疗中心,由医师检查并依据患者自身特点采取个性化治疗策略。通过这种方式,患者可显著减少就诊时间,同时仍能获得最佳的个性化治疗建议。在AI的帮助下,未来的患者可及时、准确地获得疾病相关的个性化医疗决策。我们有理由相信,基于AI的个性化远程医疗时代即将来临。
本文总结、梳理了人工智能在临床领域应用的常见技术及其典型应用,并对应用前景进行了展望。研究表明,机器学习(ML)、深度学习(DL)、专家系统(ES)、智能机器人(IR)和医疗物联网(IoMT)是最常用的AI技术,其应用领域包括智能筛查、智能诊断、风险预测和辅助治疗等。AI彻底改变了传统医学模式,显著提高了医疗服务水平,并在各个方面保障了人类健康。因此,医学AI具有十分广阔的发展前景,其未来发展方向包括大数据质量治理、新技术赋能革新、多领域知识整合及个性化医疗决策等。
强化人工智能安全治理(新论)
作为新一轮科技革命和产业变革的重要驱动力量,人工智能技术发展与应用拓展正在按下“快进键”。今年11月,习近平总书记主持召开的中央政治局会议强调,加快提升生物安全、网络安全、数据安全、人工智能安全等领域的治理能力。这为推动人工智能健康发展提供了重要指引。
在人机协同、跨界融合、共创分享的智能时代,人工智能的应用场景愈发广泛。人工智能为经济社会发展注入活力的同时,也给人类生活带来了新的风险挑战,比如对个人隐私权、知情权、选择权的侵犯,以及窃取、篡改、泄露等非法收集利用个人信息的行为,等等。为此,迫切需要加快提升人工智能安全治理能力,加强人工智能相关法律、伦理、社会问题等研究,建立健全保障人工智能健康发展的法律法规与伦理体系。
加快提升人工智能安全治理能力,需要完善相关的法律法规及行业标准。人工智能的安全秩序包含算法安全、数据安全、伦理安全、国家安全等维度。2019年以来,中国先后发布《新一代人工智能治理原则――发展负责任的人工智能》《全球数据安全倡议》等文件,明确了人工智能治理框架和行动指南。今年9月发布的《新一代人工智能伦理规范》强调,将伦理道德融入人工智能全生命周期,促进公平、公正、和谐、安全,避免偏见、歧视、隐私和信息泄露等问题,为从事人工智能相关活动的自然人、法人和其他相关机构等提供了伦理指引。
加快提升人工智能安全治理能力,要引导社会公众正确认识人工智能。人工智能监管者要提高站位,加强宏观战略研究与风险防范;人工智能研发者要坚持正确价值导向,避免可能存在的数据与算法偏见,努力实现人工智能系统的普惠性、公平性和非歧视性;人工智能的技术提供者要明确告知义务,加强应急保障;人工智能产品的使用者,应当保证这一技术不被误用、滥用或恶用。要对各类伦理道德风险保持高度警惕,坚持以人为本,落实科技向善理念,弘扬社会主义核心价值观。
加强人工智能发展的潜在风险研判和防范,确保人工智能安全、可靠、可控,也是摆在世界各国面前的重要课题。在推动完善人工智能全球治理方面,中国是积极倡导者,也是率先践行者。2020年9月,中国发布《全球数据安全倡议》,明确提出秉持共商共建共享理念,齐心协力促进数据安全;今年5月,中国担任联合国安理会轮值主席期间,主持召开“新兴科技对国际和平与安全的影响”阿里亚模式会议,推动安理会首次聚焦人工智能等新兴科技问题,为国际社会探讨新兴科技全球治理问题提供了重要平台,体现了大国责任担当。
数字化浪潮扑面而来,信息化、数字化、智能化趋势不断演进。主动加强对人工智能的伦理与法律规范,才能更好适应人工智能快速发展的新变化、新要求,在法治轨道上推动人工智能向善发展、造福人类。
(作者为北京理工大学法学院教授)
《人民日报》(2021年12月30日05版)(责编:袁勃、赵欣悦)分享让更多人看到