人工智能技术在组织和细胞形态学评估中的应用
医学发展源远流长,经历了几千年的发展历程,其由传统的“救死扶伤、防病治病”转变为满足人类多层次和多元化的健康需求,重在延长人类寿命并提高生活质量。在这一历程中,科学技术的进步是推动医学发展的原动力,科学理论或技术的每一次重大突破都会促进医学救治能力和医疗服务水平的发展。医学发展与科技创新和前沿学科交叉融合并密切相关。医学的科技创新体现在两个方面,一是临床问题引导的基础医学创新,二是前沿技术的交叉融合创新。
基于临床问题的基础医学研究主要集中于细胞学、分子生物学、动物实验和人体的组织样本,上述技术的应用加深了对医学的了解,也推动了基础-临床转化。在这些科研项目中,经过干预的肿瘤细胞、动物样本和人体样本的形态学会发生相应改变,这种改变需通过特殊的方式予以显示和统计,但既往研究对于形态学的观察主要集中于肉眼和显微镜,必要时行免疫组织化学或免疫荧光检测协助判断,而后拍照进行人工计数或借助软件统计。上述方法极具主观性,易产生假阳性,重复性差,亟需一种新的手段评价形态学变化。
深度学习是人工智能技术的重要领域,通过构建多隐层模型和学习海量训练数据,获取数据有用的特征。深度学习采用层次网络结构进行逐层特征变换,将样本特征表示变换到一个新的特征空间,使分类或预测更容易。深度学习驱动图像识别已取得成功,包括对病理[1]和医学影像[2]的识别。斯坦福大学Esteva团队采用包含2032种不同皮肤病的129450张临床图像数据集,利用谷歌TensorFlow和Inception_V3模型进行迁移学习,其对皮肤恶性黑素瘤的诊断准确率均达到90%以上[3]。ISBI(InternationalSymposiumonBiomedicalImaging)举办的研究者挑战赛(CAMELYON16)评估了深度学习算法检测乳腺癌患者淋巴结转移病理切片中转移灶的潜力,结果显示深度学习算法诊断的曲线下面积(areaundercurve,AUC)为0.556~0.994,病理医师诊断的AUC为0.724[95%置信区间(95%CI)0.643~0.804],其中深度学习最佳算法在诊断模拟中的表现优于病理医师[AUC:0.994(95%CI0.983~0.999)vs0.810(95%CI0.738~0.884),P<0.001][4]。
基于基础研究中形态学评估的局限性和深度学习的先进性,能否利用人工智能技术评估组织和细胞的形态学特征,特别是药物干预后的形态学特征变化呢?本课题组进行了大量尝试,取得了阳性结果,现总结如下。
1机体组织样本中内部特征的量化分析与临床评价人工智能技术为数字病理诊断带来了技术革新,有助于提高病理医师的诊断效率。目前普遍认为病理医师培养周期长、病理医师短缺、病理工作环境恶劣,期待通过人工智能技术协助诊断解决上述难题。由于病理诊断的金标准属性,期望人工智能技术代替病理医师是不可能的,但人工智能技术在挖掘疾病样本中的内部特征方面仍极具优势。
1.1人工智能技术识别肿瘤―间质比(tumor-stromaratio,TSR)TSR是指肿瘤组织内肿瘤细胞与间质成分的比值,主要通过术后病理切片评估获得。在结肠癌、非小细胞肺癌、乳腺癌、食管鳞癌、鼻咽癌、宫颈癌、肝细胞癌等实体瘤中,TSR是影响肿瘤患者预后的独立危险因素[5-6]。既往主要由医师通过显微镜下观察肉眼判断TSR,大多以50%作为间质丰富或缺乏的界定值。超过50%定义为间质丰富型,肿瘤侵袭能力更强;而低于50%定义为间质缺乏型,肿瘤侵袭能力稍差。然而这种评判标准存在许多问题,一是医师经验决定了TSR的精准性,二是50%的临界值是否准确。应用人工智能技术可准确量化TSR,如果肿瘤细胞判断准确,TSR可以精确到个位数。例如,本研究小组利用人工智能技术判读某张肿瘤组织病理切片的TSR,可见肉眼判读的TSR为30%~50%(图1A),而通过人工智能技术判读的TSR为27.3%(图1B),表明人工智能技术在识别肿瘤样本内部特征方面具有明显优势。
图1人工智能技术判读肿瘤―间质比Fig1Tumor-stromaratioidentifiedbyartificialintelligencetechnologyA:Tumortissues;B:Tumorcellsidentifiedbyartificialintelligence.H-Estaining.Originalmagnification:×1001.2人工智能技术识别肿瘤内部淋巴细胞的数量和空间分布肿瘤浸润淋巴细胞(tumorinfiltratinglymphocyte,TIL)是指从肿瘤组织中分离出来的浸润淋巴细胞,富含肿瘤特异性细胞毒性T淋巴细胞和自然杀伤(naturalkill,NK)细胞。TIL在调节对化学治疗的反应和改善恶性肿瘤的临床结局中起着重要作用。如三阴性乳腺癌最易发生>50%TIL的肿瘤,每增加10%的TIL都能增加生存获益;所有乳腺癌亚型都有低、中等或高TIL肿瘤,高TIL肿瘤中程序性死亡蛋白配体1(programmedcelldeath1ligand1,PD-L1)的表达上调,导致此类三阴性乳腺癌对免疫检查点抑制剂治疗表现出强烈的临床反应[7]。因此,鉴定和评价肿瘤内部的TIL对于判断预后和指导治疗具有重要价值。然而,对于如何定量TIL以及分析它们的空间分布,传统的基于H-E染色或免疫组织化学染色的分析极具主观性,且耗时费力、准确性差,而基于卷积神经网络的深度学习技术能解决这一问题。Saltz等[8]利用肿瘤基因组图谱(TheCancerGenomeAtlas,TCGA)数据库,提出了基于13种TCGA肿瘤类型的H-E图像的TIL映射。这些TIL映射通过计算染色得到,使用训练好的卷积神经网络对图像进行分类,揭示了TIL模式的局部空间结构,并与总体生存时间进行关联。TIL图谱结构模式[8]采用标准的组织病理学参数进行分组,丰富了从分子测量中衍生而来的T细胞亚群。TIL的密度和空间结构在肿瘤类型、免疫亚型和肿瘤分子亚型间差异明显,说明空间浸润状态可以反映特定的肿瘤细胞畸变状态。
1.3人工智能技术识别神经侵犯淋巴结转移是判断肿瘤患者预后和指导治疗的决定性因素,人工智能技术用于识别淋巴结内的肿瘤细胞已有报道[4]。神经侵犯是肿瘤细胞转移的一种特殊方式,如肝门部胆管癌和胰腺癌[9]。然而目前评价神经侵犯的方式仍是显微镜下肉眼观察,易漏诊,且不能反映整张切片的神经侵犯状态。本研究小组采用深度学习技术对肝门部胆管癌肿瘤细胞和神经组织分别进行学习和识别,显示了肿瘤细胞侵犯神经组织的全过程,包括肿瘤细胞首先向神经组织聚集,而后侵犯神经鞘膜,然后侵蚀神经纤维,最终沿着神经转移(图2)。
图2人工智能技术识别神经侵犯Fig2NeuralinvasionidentifiedbyartificialintelligencetechnologyBlue:Nervetissue;Red:Tumorcells.Originalmagnification:×2002细胞和动物组织样本的量化分析与药效关系基础研究和临床药效评价会使用细胞和动物模型,药物或基因干预手段对机体和肿瘤的治疗效果和不良反应需通过形态学方法予以展示和评价。传统的基于H-E染色或特殊染色的显微镜下肉眼观察和判读具有局限性,可采用深度学习技术学习细胞和动物病变样本的形态学表现,如坏死、出血、淋巴细胞反应、纤维增生、肿瘤形成和数目、血管形成等。这些表现均极具特征性和规律性,因此利用人工智能技术进行药效评价的可操作性强。本研究小组前期构建了胆管癌动物模型[10],采用不同药物进行干预,然后利用人工智能技术学习该疾病特征,结果表明人工智能技术可清晰显示疾病的发生过程和临床疗效,见图3。
图3人工智能技术评估药物疗效Fig3DrugefficacyassessedbyartificialintelligencetechnologyA:Liverwithoutintervention;B:Liverlesionafterintervention.Redrepresentsliverlesionrecognizedbyartificialintelligence.Originalmagnification:×43细胞识别与分选细胞学实验是基础和临床转化研究的基石,但少有研究集中于细胞的形态学变化。伦敦癌症研究所的ChrisBakal教授和JuliaSero博士使用珀金埃尔默公司的Opera®高内涵成像分析系统获取图像,采用类似于神经网络研究的方法分析了不同治疗条件下数以千计的个体乳腺癌细胞的形态和纹理特征,并对线粒体群体的变化和趋势进行了检测[11]。该模型中对称性、阈值紧性、轴向、径向和轮廓(symmetry,thresholdcompactness,axial,radialandprofile,STAR)算法和鞍―边缘―脊(saddle-edge-ridge,SER)纹理起着重要作用。SER纹理特征反映了像素强度的局部模式,揭示了线粒体的结构,且可以区分点状、管状线粒体结构。STAR算法通过综合描述细胞内信号的对称性、信号密度、轴向特性、放射性及轮廓,为统计表型提供了一组稳定可靠的参数,例如:线粒体是平均分布于细胞内还是按一定极性分布?是否按细胞的质量中心分布?是致密还是松散?是靠近核膜、胞质还是外膜?该研究将会在表型筛选和未知药物作用机制的研究中发挥作用。
Ota等[12]研发了一种新的细胞识别和分选系统,称之为鬼影细胞测定仪(ghostcytometry)。该系统将一种新的成像技术与人工智能技术结合,用于识别和分选细胞,不需使用空间分辨探测器即能产生物体图像,基于单像素探测器的无图像超快荧光“成像”细胞术从细胞运动中获取空间信息,而后被压缩转换成在单像素探测器上连续到达的信号。鬼影细胞测定仪以每秒1万多个细胞的速度识别细胞,以每秒数千个细胞的速度对细胞进行分类。此外,时间波形与随机模式强度分布的组合使之能在计算机上重建细胞形态,可以直接在压缩波形上应用机器学习而不用进行图像重构,实现高效的基于图像的无形态学细胞检测。这种方法将用于识别和分选患者血液中的循环肿瘤细胞,加速药物发现和改进基于细胞疗法的疗效。
4特殊染色结果的量化分析和临床治疗与预后评价药物或基因干预效果时,除可使用H-E染色外,还可借助特殊染色辅助判别,包括免疫荧光技术和免疫组织化学技术。其中免疫组织化学技术因具有经济、方便、快速和高通量等特点而应用广泛,但由于技术水平差异和评价体系的局限性,其结果标准性较差。由于免疫组织化学染色图像也属于二维图像,特征性明显,人工智能技术非常适合对其结果进行判读和一致性评价。组织细胞的染色部位分为细胞核、细胞质和细胞膜,鉴于细胞质染色评估较为容易,本文重点介绍细胞核和细胞膜的人工智能自动评分系统。
4.1人工智能自动评估人表皮生长因子受体2(humanepidermalgrowthfactorreceptor2,HER2)染色HER2是诊断和评估胃癌和乳腺癌的重要指标,在临床实践中被公认为肿瘤预测和预后的标志。目前通过免疫组织化学对浸润性乳腺癌中HER2染色的评估也是通过显微镜下肉眼观察,视觉评分较为主观,容易出现观察者间的差异。鉴于HER2染色评分的预后和治疗意义,需要一种更客观的评价方法。2016年6月在诺丁汉举行的自动HER2染色评分比赛旨在推进基于人工智能技术的自动HER2染色评分方法。86例数字化浸润性乳腺癌全切片同时行H-E染色和HER2免疫组织化学染色,人工智能算法预测HER2免疫组织化学染色的评分,并与两位专家进行比较,结果显示人工智能算法的评估效果优于病理学专家,证明了自动算法在帮助病理学家进行目标免疫组织化学评分方面具有巨大潜力[13]。另外一项基于深度学习技术的HER2染色自动评分算法对71例乳腺肿瘤切除样本进行了评分,结果显示自动评分与病理学家的一致性为83%;对12例不一致的病例进行了独立检查,发现8例患者的初步病理诊断存在问题,分析诊断不一致的原因可能是HER2染色异质性高,在评估HER2的表达时存在视觉差异[14]。
4.2人工智能自动评估Ki-67染色Ki-67是一种常用的肿瘤细胞增殖标志物,在判断预后和指导分型方面具有重要价值,然而其评估较为困难,目前的人工评分方法具有很高的误差,因为对于同一肿瘤不同观察者可能会选择不同区域进行评分。基于深度学习技术的Ki-67染色自动评分方法可通过使用全玻片分析来识别和评估增殖率最高的肿瘤区域,消除选择偏差。一项研究对328例雌激素受体/孕激素受体阳性、HER2阴性乳腺癌患者早期切除的全切片行Ki-67染色自动评分,发现其区分OncotypeDx高风险和低风险患者的准确度为97%、灵敏度为98%、特异度为80%。Ki-67染色自动评分成功解决了既往评分一致性、重现性和准确性差的问题,可以集成到病理学实验室的工作流程中[15]。基于深度学习技术的免疫组织化学自动算法同样也能应用于类似的基础和临床研究中,其评估结果具有高度一致性、重复性和准确性。
4.3人工智能自动评估多重免疫组织化学染色基于深度学习技术的算法能根据组织图像中的颜色和空间信息对多重染色的生物标志物进行量化研究,自动定位和量化整张切片任意选定区域中阳性表达的生物标志物。此类算法为卷积神经网络,可根据所表达的生物标志物分别对每个细胞核进行分类。Sheikhzadeh等[16]收集并使用了免疫组织化学染色的组织切片,根据每个细胞核中表达的生物标志物(p16阳性、Ki-67阳性、p16阳性/Ki-67阳性,p16阳性/Ki-67阴性),人工标记细胞核图像用于训练,将训练好的算法扩展到全玻片,结果显示该算法与人工标记结果高度一致。
5总结和展望基于深度学习的人工智能技术有望克服组织学和细胞学视觉评分系统主观性强、重复性差、准确率低等问题,避免或减少漏诊率和误诊率。利用人工智能技术能准确提取与肿瘤预后和疗效相关的内部特征,如TSR、神经侵犯和淋巴细胞空间分布;图像化显示药物干预疾病进展的疗效,定量化和自动化评分与临床治疗、分型和预后相关的分子标志物。人工智能技术将会极大推动临床药物评价和基础科研评价的一致性、重复性和准确性,有望进一步促进医学科研的发展。
“宫颈细胞病理+人工智能”临床试验启动 瞄准宫颈细胞学AI三类证
经济观察网记者瞿依贤4月30日,安必平(688393.SH)公司发起的宫颈液基细胞学图像辅助诊断软件临床试验正式启动,这是一项关于宫颈细胞学AI三类医疗器械注册临床试验。
该临床试验组长单位为北京协和医院,主要研究者为北京协和医院妇产科主任朱兰;安徽省立医院、浙江省肿瘤医院、深圳市妇幼保健院均为参与单位。
此外,该临床试验的项目总顾问为北京协和医学院群医学及公共卫生学院教授乔友林,细胞学仲裁专家为原中国医学科学院肿瘤医院细胞学室潘秦镜。
宫颈癌是全球高发癌症病种之一,也是目前唯一一种病因明确的妇科肿瘤。2020年世界卫生组织正式发布《加速消除宫颈癌全球战略》。同年12月,我国国务院积极响应世卫组织的号召,发布了《中国支持
2023年1月,国家卫健委等十部门联合再印发了《加速消除宫颈癌行动计划(2023-2030年)》,并提出要促进新技术参与宫颈癌防治,积极推广宫颈癌筛查和诊疗适宜技术,探索运用互联网、人工智能等新技术优化宫颈癌筛查和诊疗服务流程。
乔友林指出:从此前的推动实践来看,目前要达成世卫组织提出的“90(疫苗)-70(筛查)-90(治疗)”计划目标,中国消除宫颈癌面临的最大困难,是完成70%筛查覆盖率。
截止2020年,全球宫颈癌新发病例约60万例,死亡人数约34万例,我国宫颈癌新发病例约11万例,死亡人数约5.9万例。面对如此庞大的筛查工作,因全球细胞学病理医生严重缺乏,制片质量参差不齐等因素严重制约了宫颈癌筛查的进程。
乔友林表示,要解决细胞病理医生缺乏对宫颈癌筛查的制约,人工智能是重要助推技术。目前国内在这方面走在世界前列,中国在筛查技术上的智能化创新,有望加速全球消除宫颈癌战略的达成。
值得注意的是,安必平宫颈液基细胞学图像辅助诊断软件此前已完成一项回顾性的临床评价试验。
北京协和医学院群医学及公共卫生学院博士薛鹏汇报了这项临床评价试验的结果:
安必平宫颈液基细胞学图像辅助诊断软件(LBP-PIAS)训练数据量上百万,其中标注视野103万,标注细胞268万。根据国内七家知名三甲医院共4961例有效入组病例的研究结果,在无医生复核下,人工智能系统独立进行评估,特异度为75.56%,灵敏度(含ASC-US)为96.24%,灵敏度(LSIL+)为99.3%,灵敏度(HSIL、CANCER)为100%。
也就是说,LBP-PIAS可以挑出各分类置信度最高(最典型)的细胞,给予病理医生进行复核,可帮助病理医生排除掉大多数典型的阴性细胞。
因此,病理医生由原来的上万个细胞阅片,现仅需要对数十个细胞进行阅片即可得出准确的诊断,回顾性的多中心临床评价研究结果表明,病理医生在人工智能辅助下诊断效率提升一倍,而且面对国内基层病理科病理医生缺乏,经验较少的情况下,LBP-PIAS能有效辅助基层病理医生减少1/3以上的工作量,而且做出快速、精准的诊断。
安必平方面公开的近30家医院实际使用情况显示,利用AI初筛可以筛出置信度小于35%的阴性病例,可减少37.5%的阅片工作量,且保证阳性不漏诊。
人工智能宫颈癌筛查“湖北模式”受关注
自2017年起,湖北省妇联、省卫健委开始将人工智能宫颈癌筛查新技术应用于全省贫困农村妇女“两癌”筛查项目中,截至2019年8月,全省已累计完成110.5万例宫颈癌筛查。这是人工智能筛查技术在国内乃至国际迄今为止最大规模的用于政府项目人群应用,新技术的应用不仅实现了宫颈癌筛查的自动化和智能化,也显著提高了筛查项目的工作质量和信息化管理水平。
11月28日,第十届中国妇幼健康发展大会“人工智能宫颈癌筛查新技术成果应用专题分论坛”在重庆举行。宫颈癌筛查的“湖北模式”得到了国内众多权威医学专家的点赞。
论坛上,湖北省卫健委妇幼处副处长王丹介绍了湖北人工智能宫颈癌筛查创新模式及应用的相关情况,她表示,通过多年来的不懈努力,湖北省已经逐步形成一套政府主导、部门协作、资源整合,专项救助、公益资助、政策保障相结合,全方位、立体化整体推动,筛查、诊断、治疗、救助、康复一条龙服务,具有湖北特色的“两癌”检查模式,并实现了筛查的统一方法、统一标准、统一流程、统一质控、统一管理,收到了良好效果。王丹表示,通过筛查,受检妇女实现了早发现、早诊断、早治疗,减少了家庭及政府的医疗费用支出。随着后期组织病理检查确诊数量的增加,更多的癌前病变将被发现,社会效益和经济效益将会更加明显。
为探讨人工智能应用于宫颈癌筛查的可行性,为国家项目选择人群宫颈癌筛查适宜技术提供科学证据,中华预防医学会妇女保健分会主任委员王临虹教授及其团队从2016年起就开始对人工智能宫颈癌筛查技术进行多中心、多方位的应用效果评价研究,研究范围包括了全国7省8家大型三甲医院的临床验证及湖北省的83个县区。
王临虹教授介绍,在她和团队科学研究中,通过多中心、多种方法的临床试验评价了人工智能技术宫颈癌筛查的临床效果;通过社区人群筛查比较了不同筛查方法在人群筛查应用中的效果差异;通过微观经济学和卫生建模的方法评估了人工智能筛查技术应用于人群中的成本效益性。研究表明:在大规模人群筛查中,人工智能与细胞学专家医生的阅片结果有较好的一致性,排阴率比细胞学医生更好,对于宫颈高级别病变,人工智能比人工阅片的筛查效率更高。因此,人工智能可以作为人群宫颈癌筛查的初筛方法,特别是用于缺乏细胞学医生的基层地区。
北京大学妇儿保健中心张小松博士分析了山西省2014~2016年科研数据及湖北省2017年和2018年AI宫颈癌筛查项目的病理追踪结果。她表示,研究表明:人工智能宫颈癌筛查细胞学检查阳性率和CIN2以上及癌的检出率较基层人工阅片组高;人工智能宫颈癌筛查技术细胞学质量基本符合质控标准;人工智能宫颈癌筛查技术适宜在大规模人群筛查中,尤其是细胞学医生缺乏地区应用,能够统一标准,便于质控,可以实现信息化管理。
“人工阅片是将液基细胞瓶制片后,进行巴氏染色,经由资质细胞病理医生阅片后报告。而人工智能阅片则是由计算机自动将细胞玻片扫描为数百张数字图像,通过互联网上传图像至云平台进行大数据分析比对,经专家人工质控诊断后发出报告。”张小松比较了人工阅片和的人工智能阅片的区别,她表示,人工方式筛查人员每天阅片量应小于100例,人工智能技术则可以实现每月108万例样本的筛查。两相对比,传统人工阅片漏诊率高,易疲劳,大规模人群筛查时面临病理医生匮乏,阳性检出率通常只有3-4%;而人工智能阅片漏诊率低,无疲劳,不存在病理医生缺乏问题,阳性检出率一般可达5%,可以达到事半功倍的效果。
全国妇幼健康研究会副秘书长董燕主任介绍,2016~2019年在全国妇幼健康研究会主导开展的“全国互联网+宫颈癌筛查新技术应用研究项目”中,也采用了武汉兰丁公司研发的人工智能宫颈癌筛查技术进行试点研究。项目选取全国5省18家各级医疗保健服务机构作为试点单位,取得了很好的成果。3年共筛查28万余人。筛查阳性率5.84%,明显高于传统人工细胞学阅片。
董燕主任表示,在实践当中,人工智能技术表现出诊断准确率高、漏诊率低的优点,缩短了筛查、确诊以及治疗时间,使筛查工作实现了标准化与智能化,解决了基层缺乏病理医生等痛点。此外,云诊断平台让病理专家得以远程高效为基层宫颈癌筛查质量把关,还可以实现对阳性病例的追踪随访,也充分提高了筛查工作的质量。
论坛主办方中国妇幼保健协会同样对湖北省运用人工智能技术开展宫颈癌筛查所取得的成果给予高度评价。中国妇幼保健协会宋世琴副会长表示,湖北省率先应用人工智能新技术开展大规模人群的宫颈癌筛查,是真正对广大妇女的健康负责,是把初心和使命扛在肩上,也为在更多的资源匮乏的地方推广人工智能筛查技术提供了成熟经验。
据介绍,宫颈癌是全球第二大女性生殖系统恶性肿瘤,而开展宫颈癌筛查是降低宫颈癌发病率和死亡率的有效手段。中国目前约有近3亿适龄妇女需要进行宫颈癌筛查,要实现国家卫健委妇幼司提出的在2030年将农村适龄妇女“两癌”筛查覆盖率提高至90%的目标依然任重道远,基层筛查工作仍面临人群覆盖率有限、缺乏合格细胞病理医师等一系列挑战。人工智能宫颈癌筛查技术在湖北等地的成熟应用表明,这项技术具有较好的性价比高,适合国情,有助于减轻基层工作压力,提高“两癌”项目的工作质量及效率。目前,中国妇幼保健协会已经完成了相关调研报告,并将向国家有关部门提出建议,以进一步扩大人工智能宫颈癌筛查技术的应用试点范围。(兰新文)