博舍

今日 Nature:人工智能结合微生物组,助力癌症的早期检测! 人工智能判别癌症的方法是什么呢视频讲解

今日 Nature:人工智能结合微生物组,助力癌症的早期检测!

人体内存在着大量的微生物群落,这些微生物对我们的身体健康以及疾病的发生等各个方面都有深远的影响。近年来,关于肠道微生物的研究层出不穷,但针对肠道微生物以及癌症发生之间相关联系的研究并不系统。

图片来源:Nature

3月11日发表在Nature杂志上的研究中,来自加州圣地亚哥的RobKnight教授团队通过人工智能的手段分析了多种不同类型癌症患者体内肿瘤组织以及血液中的微生物DNA、RNA等相关标志物特征,这一研究将对癌症的临床诊断提供重要的帮助1。

背景介绍

癌症通常被认为是人类基因组异常引发的疾病。但是,最近的研究表明,微生物组对某些类型的癌症的发生也有重要影响2。其中肠道微生物组对胃肠道相关癌症的发生影响甚重。尽管如此,微生物对不同类型癌症的影响的程度和以及其临床诊断意义仍然不太清楚。

由于在癌症基因组计划中很少考虑微生物组的影响,因此在收集,处理和测序过程中样品污染的可能性限制了这些研究。随着最近技术的进步以及研究者们对微生物影响的重视程度增加,污染物对样品微生物特征的影响越来越小,因此可以通过对微生物组的研究得到更加准确的信息并有助于临床诊断的进一步发展。

此前研究曾揭示了部分癌症样本中微生物的特征,包括胃腺癌中的EBV的分布以及子宫颈癌中HPV的分布,等等3-4。然而,大多数癌症样本数据尚未得到针对性开发与利用。

对此,研究者们通过建立两个彼此交互的微生物检测系统,绘制了迄今为止最全面的癌症相关微生物组数据图谱,系统地测量并最大程度上减小了技术手段带来的差异以及样品污染的影响。之后,通过设计机器学习的工具,作者进一步识别并区分了癌症的类型以及微生物特征之间的相关性。

主要内容

为了分析与癌症相关的微生物组信息,作者收集了来自TCGA数据库中10,481名患者的33种癌症样本信息(4831份全基因组测序样本以及13285份转录组测序样本,共计18,116份样品),并对其内部的微生物构成进行了检测与分析(见下图)。

图片来源:Nature

此外,由于TCGA数据库中此前收集的数据没有排除微生物的污染风险,也没有覆盖健康人群的信息,因此作者使用微生物学标准手段对这些患者的血液样本进行了额外分析,从而排除可能存在的微生物污染。进一步,作者将血浆中微生物DNA的特征与临床上使用的无细胞肿瘤DNA(ctDNA)分析进行比较测试。

在总计6.4x1012个测序样本中,共有7.2%被归类为非人源,其中35.2%(占总度数2.5%)为微生物(细菌、古菌或者病毒)。进一步,作者发现其中12.5%序列在此前已经被鉴定到「属」(Genus)级别。

由于此前研究发现序列数据存在明显的「批次效应」,即不同批次间的同一类型样本可能存在差异,因此会对解读上述信息造成干扰5。对此,作者将离散的种群分布转变为对数型的,以百万级为单位的分布。结果表明,这种处理方式能够显著降低人为因素的干扰,并提高生物学的显著性。

通过使用归一化的数据,作者训练了「随机梯度促进机器学习模型(stochasticgradient-boostingML)」来区分统一癌症类型的不同阶段以及在不同癌症类型之间的微生物序列信息差异。这一模型的性能很强,可以同时区分一种癌症与所有其它癌症,以及可以区分肿瘤与正常组织。

通过对八种常见的癌症类型及其不同发展阶段的样品进行分析,作者发现这一微生物序列差异在结肠癌,胃癌以及肾透明细胞癌的不同发展阶段十分明显,但对于其它物种癌症则没有体现出显著差异。因此,微生物的动态构成特征与癌症发展阶段的联系并不适用于所有类型的癌症。

由于对于特定类型癌症而言,微生物特征与癌症发展之间存在明显的相关性,因此作者试图了解两者之间是否存在生物学联系。通过对人类微生物组计划中来自8个身体部位的217个样本的数据进行贝叶斯微生物源跟踪算法(Bayesianmicrobial-sourcetrackingalgorithm)的训练。其中,粪便是最主要的样本来源部位。

分析结果表明,梭菌属细菌在胃肠道肿瘤的发生和发展中起着重要的作用,与正常样品,尤其是血液来源的正常样品相比,梭菌在原发肿瘤中丰度相对更高。此外,泛癌分析还显示,胃肠癌样本(包括肿瘤组织以及相邻组织)中梭菌属细菌丰度均比正常组织要高。相反地,幽门螺杆菌在不同样本间则没有显著差异。

图片来源:Nature

在病毒分布特征方面,作者发现:头颈癌以及宫颈癌患者中,被诊断为HPV阳性以及HPV阴性的患者亚群中乳头瘤病毒属的整体丰度存在显著差异。此外,肝癌患者肿瘤组织中乙肝病毒的丰度也显著高于正常组织。上述患者血液样品中相关病毒的丰度则没有明显差异。

越来越多的证据表明,血液微生物DNA(mbDNA)在癌症预测中具有临床意义,但是尚不清楚其适用程度如何6。针对这一问题,作者分析了来自TCGA数据库的患者血液样品WGS数据,并通过机器学习工具进行分析。结果表明,基于血液微生物DNA可以区分多种类型的癌症(下图)。

图片来源:Nature

进一步,作者比较了「血液微生物DNA」标签与传统血液「肿瘤DNA」标签对于鉴定以及区分不同癌症类型的能力。结果表明,对于那些无法通过传统手段区分的癌症而言,血液微生物DNA能够起到较好的区分效果。

最后,作者利用血液微生物DNA检测手段对临床中出现的不同类型,不同阶段癌症患者的血液样本进行了分析(下图)。结果表明,这种手段能够较为准确地区分癌症患者与正常患者,以及区分不同类型癌症及其发展阶段。

图片来源:Nature

小结与讨论

总体而言,这一研究表明各种类型的癌症与特定微生物群之间存在广泛的关联。这些微生物特征似乎可以区分大多数类型的癌症其类型以及发展阶段,并且展现出癌症早期阶段血液检测的潜力。

当然,未来还需要更多的研究来确定这些「核酸分子」是否来自肿瘤微环境和血液中的活微生物,宿主细胞或裂解后的细菌。值得注意的是,目前的技术和生物学因素限制了对低丰度的微生物进行回顾型癌症测序数据的分析,因此该领域的发展将需要癌症生物学家和微生物学家之间的合作。

尽管如此,这一结果表明,新型的,基于微生物组的癌症诊断工具可能会为患者提供新的诊断方法。

人工智能在癌症研究领域的文献可视化分析

0引言

人工智能(artificialintelligence,AI)是在计算机科学、神经心理学等多学科基础之上发展起来的一门综合性交叉学科,在疾病诊疗等方面具有较多应用场景[1],癌症是人工智能应用的主要领域之一[2]。癌症是危害我国人民健康的主要疾病之一[3],如果可以利用人工智能技术探索癌症的发生和发展,为癌症的早期筛查、临床诊断、精准治疗和生存预测等方面提供快速、有效、准确的方法学手段,则可以某种程度上降低癌症发生率和死亡率。为更好了解国际人工智能在癌症研究领域的现状和发展趋势,通过检索近10年人工智能在癌症研究领域的文献,绘制科学知识图谱,发现人工智能在癌症领域的研究热点和前沿,以期为中国人工智能在癌症研究中的应用提供参考。

1资料与方法1.1资料来源及检索策略

以WebofScience(WOS)数据库核心合集为数据源,分别收集相关检索词,讨论并制定最终检索策略具体检索策略如下:(TS=("artificial*intelligence*"OR"deeplearning"OR"machinelearning"OR"ComputerVision"OR"AutomaticSpeechRecognition"OR"NaturalLanguageprocess*”OR“NeuralNetwork”OR“KnowledgeGraph”))AND(TS=("Cancer*"OR"Malignancy*"OR"carcinoma*"))。初步检索完成后,按纳入标准纳入文献。文献筛选由两组人员分别在网页上进行,核对并通过讨论或通过第三组人员处理不一致意见。为避免数据库更新引起的误差,所有数据检索、筛选及下载在2019年12月19日完成。

纳入标准:(1)文献发表时间为2010—2019年,包括在线优先发表文献;(2)文献类型为“ARTICLE”;(3)文献内容与人工智能在癌症领域应用研究相关。排除标准:(1)会议论文、信件及评论等;(2)研究主题与人工智能在癌症领域应用研究无关文献;(3)重复文献,信息不完整文献。将初步检索获得的文献归类、整理,共获得文献6242篇。通过两次筛查文献,剔除重复文献57篇;通过人工判读文献标题和摘要,剔除与主题不相关的文献35篇;通过文献管理软件查询和分析功能,剔除19篇记录信息不完整文献,最终共获得相关文献6131篇。

1.2研究方法1.2.1统计分析

本研究采用Citespace5.5.R2软件进行分析,不同国家发表文章的质量高低用文章被引频率反映,被引频率越高,文章质量越高,文章被引频率=文章被引次数/文章总数。在国家合作分布图谱中,圆的辐射面积越大,合作频次越高;国际合作中心度排名越高,合作的密切程度越高,影响力越大。高频关键词和高中心性关键词分别通过关键词的频次和核心程度反映人工智能在癌症研究领域的热点。突现词的历史共现频次反映人工智能在癌症领域应用研究的前沿。

1.2.2参数设置

时间跨度(TimeSpan)设置为2010–2019年,选择每一年为一个时间切片(timeslice),共10个时间分段。网络节点关联强度选择Cosine算法,设定时间片阈值为50,即数据抽取对象为前50(Top50)。选择最小生成树精简算法(minimumspanningtree)对网络修正裁剪,并且根据研究需要选择相应的节点类型,绘制相应的科学知识图谱。

2结果2.1人工智能在癌症研究领域应用的研究现状

自2010年以来全球围绕人工智能在癌症研究应用领域的文献呈现持续增长的趋势,尤其在2017—2019年间共发表文章3625篇,占近10年文章总数的59.13%,美国和中国在该领域研究的趋势与世界整体发展趋势保持一致,见图1。

图12010—2019年人工智能在癌症研究领域发文量比较Figure1Comparisonofamountofpublishedarticlesaboutartificialintelligenceincancerresearch,2010-2019图选项

对开展人工智能在癌症领域应用相关研究的前10名国家进行分析,结果显示,发文量最高的前三位国家分别是美国(2151篇)、中国(1341篇)、英格兰(425篇),其中,美国和中国的发文量远高于其他国家,见图2。

1:USA;2:China;3:England;4:Germany;5:India;6:Canada;7:Italy;8:Korea;9:Japan;10:Netherland图2人工智能在癌症研究领域发文量前10名国家Figure2Top10countrieswithamountofpublishedarticlesaboutartificialintelligenceincancerresearch图选项

虽然中国人工智能在癌症研究领域发文量排名靠前,但是从被引频率比较发现,美国发表文章的被引频率一直处于世界平均标准以上,而中国文章的被引频率在2010—2019年间均低于平均标准,文章研究质量仍需进一步提高,见图3。

图3中美人工智能应用于癌症研究文章的被引频率比较Figure3ComparisonofcitationfrequenciesofarticlesaboutartificialintelligenceincancerresearchbetweenChinaandUSA图选项2.2研究国家及机构的合作分析

选择网络节点为“Country”,运行CiteSpace软件,得到研究人工智能在癌症领域应用研究的国家间合作图谱。其中,美国的辐射面积最大,以2098次合作频次位于世界首位,中国以1328频次位居第2,见图4。

图4人工智能在癌症研究领域的国家合作空间分布Figure4Spatialdistributionofartificialintelligenceinfieldofcancerresearch图选项

国际合作中心度前10位的研究机构中可以发现,美国的研究机构有4家、德国有2家、新加坡有2家,荷兰和英国分别有1家,见表1。我国的合作频率虽然较高,但是在合作的中心度排名中,并未有研究机构位于前列,我国的中国科学院仅位于第20名。

表1国际合作中心度排名前10位的研究机构Table1Top10researchinstitutionsofinternationalcooperationcentrality表选项2.3人工智能在癌症研究领域的文献共被引结果

在CiteSpace节点中选择“CitedReference”,阈值选择中设置“Top50”,时间分区选择“1”,得出排名前10的文献信息,见表2。

表2人工智能应用于癌症研究领域的前10位共被引文献Table2Top10co-citedarticlesaboutartificialintelligenceincancerresearch表选项2.4人工智能在癌症研究领域的热点

对关键词词频变化的分析可知,排名前10位高频关键词的中心性整体较高,与其他关键词关系紧密,见表3。关键词时区视图显示在不同时间段关键词之间的联系紧密程度,见图5。

表32010—2019年人工智能在癌症研究领域的高频和高中心性关键词Table3Highfrequencyandcentralitykeywordsofartificialintelligenceincancerresearch,2010-2019表选项图5人工智能在癌症研究领域关键词时区视图Figure5Keywordtimezoneviewofartificialintelligenceincancerresearch图选项2.5人工智能在癌症研究的突现词

设定网络节点为“Keyword”,词语类型选择突现词(BurstTerms),结果显示人工智能在癌症研究领域近十年词频变化率较高的突现词有人工神经网络、蛋白质、模型、发现、分类、遗传算法、回归、逻辑回归、模式识别、微阵列等,这些突现词反映了近十年人工智能在癌症研究领域前沿,根据突现词出现的强度排序进行分析,可以看出人工智能的方法学研究是前沿之一,见表4。

表4人工智能在癌症研究领域应用的突现词Table4Burstkeywordsofcooperationamongcountriesonartificialintelligenceincancerresearch表选项3讨论3.1人工智能在癌症领域的研究已成为国际热点

近年来人工智能在医学研究中的应用不断加深,癌症领域的研究成为人工智能的热点,美国在该领域已走在世界前列。本研究发现,人工智能在癌症研究领域的相关文献数量逐年上升,美国是发文量最多的国家,文章被引频率始终高于世界平均水平,研究机构的合作中心度较高、数量最多,而且这些研究机构多为综合性大学(具有系统内医学院或医学中心)和癌症研究专业医疗机构,为人工智能在癌症领域的跨学科研究创造了良好的合作条件,加之美国政府在人工智能领域研究经费投入大,专利产出多[4],因此具有较强的影响力。中国发文量位于第二,与美国相比,虽然有国家政策文件支持[4],研究活跃度高,研究成果增长迅速[5],医疗人工智能技术有一定的储备[6],但是,存在研究主体单一、机构间合作不足、低被引论文比例较高[4]、资金投入与美国仍存在差距[5]、研究方向侧重于现有技术和应用研究[6]、底层基础技术与前沿技术研究薄弱[5]等问题。针对上述情况,一是建议高校研究机构加强与医疗卫生机构和企业的合作。高校研究机构提供技术研究,医疗卫生机构提供数据和应用场景,与技术优势互补的企业合作[6],进一步推动人工智能在癌症研究领域的应用;二是建议增加研究资金投入,加强对核心技术的研究与创新。在传统优势技术方向上持续投入,确保领先地位,在前沿技术方向上增加投入,进行专项研发和攻坚[4],争取达到世界一流水平并引领技术发展。另外,人才培养、伦理法律将是世界人工智能研究共同的未来战略突破点[4]。

3.2人工智能可应用于癌症基础研究和临床研究多个方面

从人工智能在癌症研究领域中的热点可以发现,其在分子生物学、细胞组织学、临床诊断、治疗和预后预测等方面均可应用,涉及基础研究和临床研究多个方面,应用范围较为广泛。

从高频和高中心性关键词和关键词时区分布图可以发现,人工智能在癌症研究的热点主要包括:一是人工智能应用于乳腺癌的临床诊断和治疗。2010年开始主要是利用神经网络技术对乳腺癌进行分类,2012—2014年主要对肿瘤的质地变化进行分析,提高放疗的准确性,2015—2018年研究的方向主要是将机器学习、深层卷积神经网络等人工智能技术应用于CT、MRI、超声等临床诊断;二是人工智能在癌症基础研究中的应用。2010—2013年主要在细胞中研究基因表达,在组织中进行光谱学方法的敏感度分析,2014—2016年通过体外研究癌细胞的转移、生长、信号通路和突变,2017年起开始对腺癌进行研究。三是人工智能在构建癌症模型中的应用。2010—2013年利用机器学习建立预测模型,对化疗患者进行Logistics回归分析,进行危险因素研究,后期引入定量构效关系等方法进行模型的管理和验证,2017年开始人工智能与大数据相结合,在肿瘤异质性和肿瘤放射学方面进行研究,致力于降低癌症的死亡;四是人工智能的方法学研究。利用分类器、支持向量机等工具,通过微阵列、随机森林、自然语言处理等算法来改进人工智能的方法和技术,从而对信息进行处理和优化,预测癌症的发生和发展;五是人工智能在肺癌诊断和检测中的应用。2010年人工智能在肺癌中的应用,主要是利用人工神经网络研究生物标志物。2013—2014年癌症的诊断和检测是研究的热点,尤其在鳞癌中。2019年机器学习在肺癌中应用成为热点。

通过对高频和高中心关键词分析发现,国际人工智能在乳腺癌领域的研究较多[7],主要方法包括人工神经网络、机器学习、模型和算法,可涉及预测、表达和生存等内容,但是在关键词时区视图中,发现研究热点不仅涉及乳腺癌的临床诊断和治疗,通过人工神经网络及机器深度学习研究肺癌诊断和检测也是热点之一[8],因为人工智能在X线、CT、核磁、超声、病理诊断以及放射治疗方面的研究也较多,所以也可以用于其他癌种。同时,通过人工智能在基因表达、细胞组织学、信号通路、基因突变等方面的应用,可研究肿瘤的生长、转移;人工智能结合大数据,通过机器学习等方法构建模型,进行图像分析[9],预测生存状况及治疗情况;人工智能利用分类器、向量机等工具,通过算法、机器学习、微阵列、随机森林等方法预测癌症的发生都是当前研究的热点。

蛋白质的研究是人工智能应用于癌症研究的前沿领域。前期微阵列技术为基因的研究提供了方法学基础,标准化的微阵列数据集包含数千个基因表达和数百个样本,将异常癌组织中表达的基因与正常组织中表达的基因进行比较,可以很好地了解疾病病理,并可以更好地诊断和预测基因的表达[10],基因的表达必然涉及蛋白质的研究,蛋白质研究可以贯穿癌症发生、发展、转移、诊断和治疗的全过程[11],因此利用人工智能的方法对影响癌细胞生长全过程的蛋白质进行研究是前沿领域。

3.3人工智能方法学研究突破可为癌症研究带来新机遇

根据人工智能在癌症研究领域文献共被引结果,分析人工智能在癌症研究领域应用的知识基础,主要包括以下几个方面:一是人工智能在应用时需要借助的软件,包括LIBSVM[12]和Scikit-learn[13]。LIBSVM是支持向量机的库,目标是帮助用户轻松地将人工智能的技术应用于其使用程序;Scikit-learn是一个Python高级编程语言的模块,专注于将人工智能分析的结果展示给非专业人员;二是人工智能的基础是机器学习,多种方法可以提高机器学习和分析结果的准确性。通过深度学习建立深层卷积网络,深度卷积神经网络体系结构在大规模视觉识别时,可以提高网络内部计算资源的利用率,提高处理图像、视频、语音和音频的能力,从而实现分类和检测[14];在深层神经网络中引入残差学习框架,深度越大,准确性越高[15];改进神经网络学习和训练的策略,充分挖掘带注释样本的数据信息,提高准确性和速度[16];通过Dropout技术防止神经网络过度拟合,提高神经网络的性能[17];三是利用人工智能对癌症的图像进行识别和分类。应用深层卷积神经网络对图像进行分类,可以降低结果的错误率[18]。在利用深层卷积神经网络对皮肤癌进行诊断时,人工智能可达到和皮肤科医生一样的诊断能力,如果在移动设备上配备深度神经网络,则可以潜在地扩展皮肤科医生在诊所外的服务范围[19]。

从突现词分析和共被引文章分析发现,研究者们近些年更关注于人工智能在癌症研究领域的方法学研究。人工神经网络是功能强大的机器学习方法,广泛用于学习多个级别的抽象数据,能够解决非线性复杂问题[20],是人工智能应用于癌症研究主要技术。基于人工神经网络建立准确的癌症研究模型是研究的基础,利用遗传算法[21]、回归模型、模式识别、微阵列[10]等方法,优化算法,准确建模,评估模型,提高预测结果准确性,进行方法学优化与改进是研究的前沿。人工智能将在癌症的发现和分类领域有更多的应用前景。基于人工智能的方法学改进,人工神经网络方法已被用于预测癌症的存在,分析癌症类型或生存风险或将未标记的样品聚类等方面,通过模式识别对图像信息进行分析,应用于癌症的病理和影像诊断,都为癌症的诊断和分类提供了方法学基础。由于构建模型时可能存在过度拟合、模型配置和训练、模型的评估以及研究的可重复性等技术问题[10],所以通过遗传算法优化人工神经网络、利用包括逻辑回归在内不同类型的回归模型对已构建模型进行评估、将微阵列技术与神经网络相结合对癌症基因进行分析、通过模式识别对病理和影像等图像信息进行处理用于癌症的诊断与分类等[22],都是围绕癌症研究的方法进行优化与改进。但如何找到符合医学生物学原理、具有临床实用性的算法,提高模型预测的准确性、可重复性和可操作性是关键[23],所以方法学研究的突破可能会为癌症研究开辟新的空间和带来新的机遇。

4小结

人工智能在癌症研究领域目前已成为世界各国科技革命的新竞技场。通过借鉴国外研究的热点与前沿,并结合自身特点发挥中国在癌症防治方面的优势,借助人工智能的手段,注重国际合作与国家级机构间合作,加强交叉学科研究,将有效促进中国人工智能在癌症研究方面的发展。

作者贡献:

杨文静:研究设计、数据分析、论文撰写与修改

吕章艳、冯小双、王维:数据收集及分析,材料支持

任建松:论文审阅

池慧:论文审阅、提供研究经费

杜然然:研究设计、数据分析、提供研究经费

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇