柳叶刀子刊:人工智能辅助肺癌靶向治疗方案选择
柳叶刀子刊《LancetDigitalHealth》报道了北航医学科学与工程学院在肺癌人工智能研究的最新进展:《MiningWhole-lungInformationbyArtificialIntelligenceforPredictingEGFRGenotypeandTargetedTherapyResponseinLungCancer:AMulticohortStudy》,该研究提出了全肺分析人工智能模型,可利用CT影像无创预测肺癌患者的基突变状态和接受靶向治疗后的个体化疗效,最终可辅助肺癌患者的靶向治疗决策。该研究使用了1.8万例肺癌患者数据对模型进行训练和验证,利用人工智能技术进一步探索了宏观CT影像与微观基因信息的关联。
该工作属于医工交叉的深入研究,论文第一作者为北航医学科学与工程学院王硕副教授;华西医院余何、甘芸翠博士作为共同一作;共同通讯作者为华西医院呼吸与危重症医学科李为民教授、上海市肺科医院放射科史景云教授、广东省人民医院放射科刘再毅教授、世纪坛医院呼吸与危重症医学科薛新颖教授、大连医科大学附属第二医院呼吸内科王琪教授、云南省肿瘤医院放射科李振辉博士、301医院呼吸与危重症医学科谢菲教授以及北航医学科学与工程学院田捷教授。
肺癌作为死亡率最高的癌症,其中超过一半的患者在确诊时已是晚期,此时,表皮生长因子受体(EGFR)靶向治疗是推荐的一线治疗方案。在靶向治疗过程中,首先需对患者进行EGFR基因突变检测,进而筛选出可以接受靶向治疗的患者。
现有的临床方法通过穿刺取出肿瘤组织再进行基因检测来确定基因突变状态,但穿刺只能获取肿瘤局部组织的信息,由于肿瘤的高度异质性可能产生假阴性结果[1,2]。此外,一部分晚期肺癌患者其肿瘤所处的位置特殊,或由于癌症转移等因素,难以穿刺到合适的肿瘤组织,导致这部分患者错失靶向治疗的机会。因此,亟需一种无创、方便的EGFR基因突变检测方法,作为对穿刺的补充和辅助。
CT影像作为肺癌诊疗过程中必不可少的工具,提供了很好的无创分析肺癌的手段,且不会受到肿瘤异质性的影响;但仅凭人眼阅片难以对其中蕴含的高维和微观信息进行有效挖掘。人工智能技术的发展则充分利用了大数据的优势,可从影像中挖掘到人眼难以感知的高维微观信息,构建了宏观影像与微观基因信息之间的桥梁[3]。
本文研发了一种全自动的人工智能系统(FullyAutomatedArtificialIntelligenceSystem,FAIS),在大数据驱动下直接对CT影像进行全自动的分析。FAIS使用了基于肺区引导注意力机制的全肺分析深度学习模型,无需人工辅助和标注图像,对全肺的异常征象进行自动分析,并使用EGFR基因型和基因通路信息对模型进行引导训练;最终,可利用CT影像无创地预测出患者是否存在EGFR基因突变,并且可对患者接受EGFR靶向治疗后的无进展生存期进行预测,进而筛选出靶向治疗的获益人群。
图1.FAIS人工智能系统的流程图
该研究纳入了国内外9个数据集1.8万余例肺癌患者进行大数据的训练和验证。研究发现,肺癌EGFR基因突变会导致肿瘤以外区域的形态学改变,因此,全肺分析比基于肿瘤的分析方法能挖掘到更多的有用信息。在美国TCIA公开数据集的对比实验表明,FAIS所使用的全肺分析方法比传统的基于肿瘤的分析方法性能提升了11.8%。此外,全肺分析方法无需人工勾画肿瘤病灶,更具有可推广性。在TCIA数据集上进行的基因通路分析表明,FAIS从CT影像中提取的全肺特征与ERBB、P53、细胞黏附分子通路、ECM受体相互作用通路等靶向治疗耐药和癌症转移相关的基因通路都存在关联,通过大数据学习进一步揭示了宏观影像与微观基因信息的关系。最终,FAIS在6个测试数据集8000余例肺癌患者中进行EGFR基因突变预测时达到了AUC=0.813的精度;并且能预测患者接受靶向治疗后的无进展生存期,对患者进行预后风险分层。借助FAIS的辅助,可以对原本难以进行穿刺的患者无创地检测出EGFR基因型,并预测其靶向治疗疗效;可有效筛选出靶向治疗获益人群,进而提升肺癌患者的生存率。
图2.FAIS发现EGFR基因突变对宏观CT征象的影响不仅体现在肿瘤内部(A、B),也可能体现在肿瘤周围(C-H)
该研究于2022年3月24日在线发表在柳叶刀子刊LancetDigitalHealth上(SCIIF:24.519),DOI:10.1016/S2589-7500(22)00024-3。该研究得到国家自然科学基金、科技部重点研发计划等科研基金的资助。
参考文献:
[1].GerlingerM,RowanAJ,HorswellS,etal.Intratumorheterogeneityandbranchedevolutionrevealedbymultiregionsequencing[J].NewEnglandJournalofMedicine,2012,366:883-892.
[2].TopalianSL,TaubeJM,AndersRA,etal.Mechanism-drivenbiomarkerstoguideimmunecheckpointblockadeincancertherapy[J].NatureReviewsCancer,2016,16(5):275-287.
[3].BeraK,BramanN,GuptaA,etal.Predictingcanceroutcomeswithradiomicsandartificialintelligenceinradiology[J].NatureReviewsClinicalOncology,2021:1-15.
【LancetDigitalHealth原文链接:https://www.thelancet.com/action/showPdf?pii=S2589-7500%2822%2900024-3】
人工智能辅助恶性肿瘤诊断的应用进展
0引言基因组学、代谢组学和影像组学的不断发展,为肿瘤患者精准医疗提供了大数据支撑,但也给肿瘤医师数据分析带来巨大挑战。人工智能(artificialintelligence,AI)尤其是深度学习(deeplearning,DL)能够大批量处理高维数据,在影像识别方面AI能够自动识别和动态监测靶病灶,辅助临床医师获得更准确的影像学评估,提高工作效率,减少工作负荷,在肿瘤诊断、复发检测和个体化诊疗方面具有重要价值。尽管AI在肿瘤辅助诊断领域取得了丰硕成果,但在临床实践中尚面临数据可及性、模型鲁棒性(Robustness)和泛化性以及结果可解释性等诸多挑战。本文主要对AI基本原理、前沿进展、面临挑战和未来展望等方面探讨AI在恶性肿瘤诊断领域的应用进展。
1AI概述及基本原理人工智能是利用计算机算法执行类似人类的智能行为并完成相关任务的技术,最早于20世纪50年代提出[1],源于数学和计算机科学,是一种迭代的“自学习”技术,可发现数据间的内在联系,并更快地执行任务。
机器学习(machinelearning,ML)是AI的分支,兴起于20世纪80年代。ML主要研究计算机如何模拟或实现人类的学习行为,获取新知识、完善已有知识框架和自身性能。ML可在无明确编程指令的情况下执行任务,发现数据间的隐藏关系[2],进行数据分析,常用的Logistic回归、线性回归、决策树、随机森林(randomforest,RF)、朴素贝叶斯和K-means聚类分析、多层感知机(multi-layerperceptron,MLP)、支持向量机(supportvectormachine,SVM)等[3]均属于ML,其中Logistic回归广泛用于肿瘤学研究[4]。ML可分为有监督学习、无监督学习和增强学习。有监督学习是将有明确标签的数据按一定规则或比例随机分为训练集和验证集,对训练数据进行拟合获得模型,通过验证集检验该模型的效能,从而得出结论,常用于处理数据回归和分类问题。例如,通过统计儿童性别、各年龄阶段的身高和体重等数据,得出儿童身体发育模型(回归),进而用于判断普通儿童的发育状态(分类)。无监督学习是指数据没有分类标签,计算机根据数据间的相似性或差异进行聚类[5],使同类数据差异最小,不同类数据差异最大,常用于数据降维处理和聚类分析。例如人脸识别系统,客户端将面部图像进行特征提取(降维),与用户信息一起输入服务器终端,当需要识别时内部系统会对新的面部特征与终端进行匹配,即使与录入时的光线、角度不同,仍能准确识别用户身份(聚类)。增强学习,是指先利用未分类数据进行训练,建立初步模型,再通过反馈性评价模型优劣指导下一步学习,通过不断地试错和反馈进行“自我学习”,一般解决序列决策和智能控制问题。我们熟知的“Alpha-Go”和“无人驾驶汽车”就是增强学习模型的典型代表,其中无人驾驶汽车是通过车载传感器感知车辆周围环境,并根据车况和路况控制车转向和速度,从而实现安全行驶。
人工神经网络(artificialneuralnetworks,ANN)和深度学习是机器学习的新领域,旨在通过计算机模拟人类大脑进行数据分析。AI、ML和DL三者关系,见图1。ANN源于人大脑神经元相互连接的生物学习模式[6],具有级联、变化和分层等能力。DL是ANN的进阶,使用分层ANN开发更为复杂的学习模型,以理解不同维度的数据[7]。DL包括深度信念网络(deepbeliefnetwork,DBN)、卷积神经网络(convolutionneuralnetworks,CNN)和递归神经网络(recurrentneuralnetwork,RNN)等,其中卷积神经网络算法在图像处理方面具有独特优势,已用于临床影像数据特征提取和分析,递归神经网络算法通过对时间序列数据进行分析,用于疾病动态监测。传统ML需将原始数据进行特征提取并处理为结构化数据集,无法直接处理非结构化的数据。DL能直接处理包括图像、声音、语言在内的非结构化数据,在临床影像分类、病历文本分析和肿瘤诊断[8-9]方面具有优势。
AI:artificialintelligence;ML:machinelearning;DL:deeplearning.图1AI、ML和DL三者关系图Figure1RelationamongAI,MLandDL图选项2AI与恶性肿瘤诊断AI可利用异质性数据辅助肿瘤诊断、判断预后、制定个体化诊疗方案[10-13],还可连接众多的移动设备,如智能手机或可穿戴装备等终端,开发“数字生物标记物”,预测临床结果。DL在肿瘤诊疗领域的相关研究近年来突飞猛进,见图2。下面我们将深入探讨AI在皮肤肿瘤、肺癌、前列腺癌、乳腺癌及卵巢癌诊断和肿瘤放疗的应用进展。
图2近十年“Medline/PubMed”中“Deeplearning”在肿瘤诊疗领域文章发表情况Figure2PublicationofdeeplearninginthefieldoftumordiagnosisandtreatmentinMedline/PubMedinthepasttenyears图选项2.1AI与皮肤肿瘤皮肤肿瘤位于体表,其诊断主要依靠病变部位的颜色变化和形态特征,并通过病理确诊。AI中CNN算法可有效处理皮肤肿瘤的图像数据,进行分割、内部特征提取和分类。2018年德国海德堡大学一项前瞻性研究[14]显示,AI较皮肤科医生能更准确地诊断皮肤黑色素瘤。该研究通过卷积神经网络(CNN)深度学习20例恶性黑色素瘤和80例良性痣的图片,与17个国家58名皮肤科医生的诊断进行比对,结果显示,CNN算法的诊断符合率(AUC)为0.86,高于皮肤科医生的0.79(P