人工智能在医学图像处理中的研究进展与展望
自伦琴1895年发现X射线以来,医学图像已经成为诊断人体疾病的重要医学检查手段。如今,计算机断层扫描(CT)、磁共振成像(MRI)和超声等医学图像都是疾病诊断最直接、最常用的方法。然而,大量的医学图像需要临床医生和影像科医生花费很多时间和精力进行阅片分析,并且还可能会因医生个人主观经验或疲劳出现阅片错误,导致疾病错诊、漏诊和误诊等问题,因此,亟须有数字化、智能化的软件和程序来解决这个问题,提高阅片速度和效率,减少医生错诊、漏诊和误诊的出现概率。
人工智能(artificialintelligence,AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学,通常是指通过计算机程序来呈现人类智能的技术。根据2017年中华人民共和国国务院印发的《新一代人工智能发展规划》,人工智能已经成为我国科技的重要发展战略方向,其在我国各行各业都有重要体现。近年来,随着深度学习的发展,人工智能技术在医学领域取得了很多突破性进展,尤其体现在医学图像处理方面[1-2],前期主要包括CT、MRI和超声图像中病灶的智能识别、自动分割、三维重建和三维量化,以及后期的疾病智能诊断和预后评估。本述评将从人工智能辅助医学图像分割和三维重建、疾病的智能诊断和预后评估三个方面探讨人工智能在医学图像处理中的研究进展,并对今后的医学人工智能的研究方向进行展望。
1人工智能辅助医学图像分割从MRI、CT、超声等多种模态的医学图像中,我们能够获取人体器官和病灶的二维生理学和形态学图像信息,但想要更直观地观察疾病病灶的三维形态和空间毗邻关系,实现对疾病的精准量化,为患者提供更准确的疾病信息、疾病诊断和最优治疗方案,则需要借助医学图像分割和三维重建技术,获得病灶及毗邻结构的三维数字化模型。传统医学图像的分割与三维图像重建主要依靠人工进行,存在耗时、繁琐、主观偏差(不同人员对知识的掌握与理解不同,导致分割与重建的误差)等缺点。
人工智能技术的运用对于医学图像分割具有重大的意义和应用价值,特别是基于深度学习的卷积神经网络算法有助于提高分割效率、缩短分割时间、减少主观偏差,可以将医生的精力从图像分割中解放出来。近几年一些研究表明,通过对经典卷积神经网络模型的改进可以在医学图像上对一些复杂组织结构达到很好的分割效果。香港中文大学LI等[3]于2018年提出的混合密集连接网络(H-DenseUNet)在肝脏分割方面取得了非常好的效果,很好地解决了同时分割肝脏和病灶的问题。同年,ZHAO等[4]研究团队通过将全卷积神经网络(fullyconvolutionalneuralnetworks,FCNN)和条件随机场(conditionalrandomfields,CRF)集成到统一框架中,开发了一种新的脑肿瘤分割方法,获得了具有外观和空间一致性的较好的分割结果。2019年巴西西拉联邦大学的ARAÚJO等[5]通过细胞分割深度学习技术的细胞学分析计算工具,在没有预分割的情况下排除包含异常细胞的低概率图像,从而提升了Pap测试检验效率,比现有的方法运行得更快,而且检测精准度不会受白细胞和其他污染物存在的影响。2020年山东师范大学XUE等[6]在快速采集的梯度回波图像上开发出一种基于深度学习的网络检测和分割方法,通过Dice测量自动和手动分割结果之间的重叠,证明该网络可以自动准确地对脑转移肿瘤病灶进行检测和分割,敏感性为(0.96±0.03),特异性为(0.99±0.0002),Dice值为(0.85±0.080)。在分割存在较大难度的肌肉组织方面,加拿大西蒙弗雷泽大学工程科学学院的DABIRI等[7]于2020年利用深度学习算法设计出包含第三腰椎(L3)轴向切片定位网络和肌肉-脂肪分割网络,将其运用在腹部CT图像上,实现了L3切片定位,其平均误差在(0.87±2.54),完成了骨骼肌、皮下脂肪组织、内脏脂肪组织和肌肉间脂肪组织的自动分割,其平均Jaccard得分为97%、98%、97%、83%,定位和分割网络性能表明该方法具有高精度的全自动身体成分分析的潜力。2021年中国北京大学第一医院神经内科的YANG等[8]构建了卷积神经网络,用于分割MRI图像下肌肉结构,以获得肌肉在人体结构中的比值,用于诊断肌营养不良障碍,该深度模型在鉴别肌营养不良症患者方面表现出良好的准确性和敏感性,并通过与3名放射科医生对比,证明了该模型通过MRI图像诊断肌营养不良症方面存在潜在应用。
2人工智能辅助疾病的智能诊断医学疾病的诊断对患者预后评估以及治疗方案的选择至关重要,然而,医生对医学影像的准确解读需要较长时间专业经验的积累,有经验医生的培养周期相对较长。因此,人工智能辅助疾病的智能诊断非常重要和关键,不仅可以提高对医学图像的检测效率和检测精度,减少主观因素带来的误判,提高医生诊断速度,帮助年轻医生对比学习和快速成长,还能帮助缺少医疗资源的偏远地区、基层医院及体检中心提高筛查诊断的水平。这方面研究主要包括医学图像上疾病病灶的识别与分类,特别是在皮肤癌、肺癌、肝癌等常见疾病的诊断方面有突出进展。
早在2017年斯坦福大学的研究者[9]已经成功训练了一个可以诊断照片或皮肤镜下皮肤癌的深度学习算法,该算法不仅可以区分角质形成细胞癌和良性脂溢性角化病,还能准确识别出恶性黑色素瘤和普通的痣,该研究设计的深度卷积神经网络在测试时都达到了专家的水平。人工智能的皮肤癌鉴定水平已经达到了皮肤科医生水平,预计在不久的将来,具有该皮肤癌诊断算法的移动设备可以让皮肤科医生的诊断拓展到诊室之外,实现低成本的皮肤病重要诊断。
人工智能辅助肺癌的识别和诊断可显著减少过度诊断,主要的应用是在医学影像的基础上通过区分良性和恶性结节来改善肺癌的早期检测,因为早期识别恶性肺结节对于肺癌后期的手术、放化疗等治疗至关重要,同时决定了肺癌的预后。2019年ZHAO等[10]探索了利用最先进的深度卷积神经网络的3种策略包括修改一些最先进的卷积神经网路(convolutionalneuralnetworks,CNN)架构,集成不同的CNN构架和采用迁移学习,对CT图像上的恶性和良性肺结节进行分类,最后证明迁移学习的效果最佳。BONAVITA等[11]使用3D卷积神经网络评估肺结节恶性程度,并将其集成到自动化的端到端的现有肺癌检测流程中,提高了肺癌的预测效果。另外,美国德克萨斯大学西南医学中心WANG等[12]认为深度学习算法还将会影响肺癌的数字病理智能检测的发展。随着技术的进步,深度学习包括多任务学习、转移学习和模型解释等,都会对肺癌的诊断起着积极的影响效果。
随着越来越多研究的发表,人工智能技术在肝病诊断和治疗方面的应用也越来越多。CHOI等[13]利用来自7461例患者的大量CT图像数据集,开发了一个用于对肝纤维化进行分期的CNN模型,其性能优于放射科医生以及氨基转移酶-血小板比指数和纤维化-4指数等血液生化学指标,证明人工智能可以实现在CT图像上准确地诊断肝纤维化并对其进行分期。YASAKA等[14]使用来自460例患者的肝脏CT图像训练的CNN模型在肝脏肿块鉴别诊断中表现出较高的诊断性能。NAYAK等[15]开发了一种新的基于深度学习的肝脏三维分割和肝细胞癌(hepatocellularcarcinoma,HCC)检测系统,用于对肝硬化和HCC进行诊断分类,效果较好。HAMM等[16]使用434例HCC患者的MRI图像建立了一个CNN分类器对6个类别的具有典型成像特征的肝脏病变进行诊断分类,测试集性能显示平均敏感性为90%,特异性为98%,每个病变的计算时间为5.6ms。这些研究都表明人工智能深度学习可作为放射科医生最终决策支持工具的潜力,以及其能以省时的方式整合到临床工作流程的可行性。肝活检是目前检测、风险分级和监测非酒精性脂肪肝患者的标准,美国纽约州西奈山的伊坎医学院肝病科DINANI等[17]认为人工智能给诊断非酒精性脂肪肝及其表型风险分级带来希望,利用人工智能可以提高识别有非酒精性脂肪肝和晚期纤维化风险患者的能力,客观地评估肝脏疾病诊断并改进肝组织的组织学评估不足之处。
此外,人工智能在辅助膀胱癌的诊断上也有一些应用进展。2019年美国加州斯坦福大学医学院泌尿外科SHKOLYAR等[18]通过研究发现将人工智能中的深度学习算法用于增强的膀胱镜检查,可以改善肿瘤的定位精准度、肿瘤的识别率、术中导航效果和膀胱癌的手术切除效果。2020年德国美因茨大学医学中心病理学研究所WOERL等[19]尝试利用人工智能深度学习单独从传统的组织形态学中检测肿瘤组织外观,进而诊断侵袭性膀胱癌分子亚型,发现其诊断效果良好,类似或优于病理学专家,表明人工智能用于预测侵袭性膀胱癌的重要分子特征,有可能显著改善该疾病的诊断和临床管理。
3人工智能辅助疾病的预后评估通过患者信息和图像分析,提取肿瘤的大小、部位、形态、边界、质地等特征,预测疾病治疗反应,评估疾病的预后,可以帮助医生更好地选择合适的治疗方式,这方面的研究在不断发展,这也是医生和患者都关心的问题。2018年香港中文大学重点肿瘤实验室CHAN等[20]通过回顾性研究,分析3903例接受手术切除的早期肝细胞癌患者,构建了两个统计模型,用于预测切除后早期HCC的复发风险,模型经过广泛验证被证明适用于国际环境,临床医生使用后能够估计个别患者复发的风险,对指导监测随访和切除后辅助治疗试验的设计很有价值。通过近几年的发展,影像组学在肿瘤诊断、分期、预后以及预测治疗反应等方面也取得很多进展[21-22]。南京医科大学第一附属医院放射科的XU等[23]于2019年回顾性分析了总共495例肝癌手术切除的患者,构建的综合影像组学模型显示肿瘤大小和瘤内不均匀性与肿瘤微血管浸润相关,表明结合大规模的临床影像和影像组学特征构建模型,不仅能够有效预测HCC微血管侵犯风险,并可对患者术后复发及生存进行评估。2020年广州中山大学第一附属医院超声科LIU等[24]基于2008-2016年共419例患者(包括射频消融和外科手术切除患者)的肝脏对比增强超声,建立人工智能影像组学模型,预测射频消融和手术切除的无进展生存期,结果显示基于深度学习的影像组学模型可以实现无进展生存期的术前准确预测,可以促进极早期或早期肝细胞癌患者的最优化治疗方式选择。不仅如此,此研究团队还利用基于人工智能的影像组学方法在超声造影中准确预测肝细胞癌患者对经动脉化疗栓塞的反应,并在不同验证集中表现出高度可重复性[25]。由此可见,结合深度学习和影像组学的优势,可以更大程度地对疾病进行治疗反应预测和预后评估。2021年美国加利福尼亚州斯坦福大学医学院放射肿瘤科JIN等[26]通过多任务深度学习方法,充分利用治疗的动态变化信息,成功预测新辅助化疗后直肠癌出现病理完全缓解的可能性,在160例和141例患者的多中心验证中获得的受试者工作特征曲线下面积(areaundercurve,AUC)分别达到0.95和0.92,结合肿瘤血清标记物后,该模型的预测精度进一步得到提高,这项研究可用于改进治疗反应的评估和疾病监测,并有可能为个性化医疗提供信息。
4展望近年来,随着社会的数字化和智能化发展,虽然由于医学的严谨性和复杂性,人工智能在医学上的产品并不多,但是人工智能已在医学的研究上广泛普及。通过本述评对近几年国内外医学人工智能的研究和应用的分析,我们认为,医学院校的人工智能辅助医学图像处理方面的研究可主要聚焦于以下几个方面。
4.1医学影像和病理图像的智能分割人体正常结构和病灶详细信息的精准获取来源于人体结构的边界精准分割,而且人体结构三维图像和三维形态学参数的获取更依赖于二维影像学和病理学图像的分割,图像分割是后期疾病诊断、预后评估、治疗决策的基础,但是分割会花费医生大量的时间和精力。因此,亟须通过人工智能算法或工具,来解决手工分割耗时长、精度差、精度依赖于医生个体经验的问题。
目前,基于人工智能的深度学习算法常用于医学影像学图像如CT、MRI、超声和病理学图像的分析。一般在图像中选择一些具有一定准确几何形态规律的、相互变异较小的、边界比较清楚的人体组织结构,来进行深度学习算法或软件的训练,比如人体大脑、小脑、肝、肺、肾、脾、乳腺、甲状腺、骨骼肌等,尤其目前的研究在肝癌、肺癌等常见病、多发病的体现最多,往后的研究会逐渐向适合深度学习的而又为常见病多发病的实质性脏器疾病发展,如胰腺癌、食管癌、腮腺肿瘤等。然而,对于一些变异较大的结构如小肠、静脉,就不大适合使用深度学习算法进行分割,反而阈值法和区域扩增等传统算法可能会更加适合,因为目前的深度学习算法大多属于监督学习,需要医生的精准标注进行训练,而标注这些变异较大的结构会大大增加医生的工作量。因而,肉眼能识别和分割出来的结构,人工智能分割实施效果会较好,肉眼难以准确识别的结构,人工智能算法效果也会欠佳。因此,目前开展人工智能进行医学图像分割研究需要选择合适的分割结构和合适的临床疾病,但随着人工智能方法的不断更新,非监督学习的发展,医学图像的分割难题可能会得到解决。
4.2人工智能辅助疾病诊断疾病快速精准诊断是精准治疗的关键,传统的诊断存在医学诊断个体差异、耗时长、优势医疗资源相对匮乏等问题。人工智能辅助疾病诊断包括疾病病灶检测和疾病分类分期确诊,数据源主要来自人体影像学和病理学数据。在诊断效率上,人工智能在某些疾病的诊断上水平已经超过了医生,已经在临床上开始使用,比如肺癌、皮肤癌、乳腺癌等这几类都是常见的肿瘤,因为其训练样本达到了几千或几万病例。其他疾病如胶质细胞瘤、宫颈癌、直肠癌的智能诊断还处于发展阶段,主要原因是训练集样本量不够多,非多中心实验,这一部分研究仍可继续挖掘。还有一些如非肿瘤性的内科疾病比如感染性疾病、自身免疫性疾病等仍未作为研究的重点,这一部分的研究仍可继续开展。
人工智能辅助疾病诊断模型存在构建的通用性模型在特定任务中表现不理想的情况,如人体眼底彩色照片的眼底疾病的筛查和诊断中,使用通用性筛查模型往往在具体疾病的识别中表现就不够理想。同时,模型的构建,往往对图像的源数据质量要求比较高,如不同医院、不同医疗设备、不同操作技师所获取的数据就不一样,如果只用来自一家医院的数据,而不入组其他医院的,那么最后构建的模型,就不能精准智能诊断其他数据源的数据。因此,人工智能辅助诊断研究,早期可从单中心数据源选择入手,但在后期,则需要考虑多中心数据,这样,构建的智能诊断模型才能够具有通用性。
人工智能诊断疾病的技术路线要基于影像科或病理科医生,把他们的疾病诊断思路弄清楚、弄明白,才能更准确地让机器学习医生的诊断思路,进行智能诊断,从而达到疾病的精准诊断。如病理科医生诊断肿瘤,先判断细胞核的核分裂象和核异质性,再考虑细胞质的异常变化,另外皮肤科医师根据痣的大小、边界、颜色、质地均匀度、部位进行痣良恶性的判定,让机器按这样的思路学习才能事半功倍,实现精准诊断。
4.3人工智能辅助疾病预后评估人工智能辅助疾病预后评估,目前为临床医生和患者及家属最关心的问题。通常采用回顾性的研究分析方法,构建疾病智能预后评估模型,进行预后风险性评估研究和手术、放疗以及新辅助化疗风险性评估。目前,这一部分的研究逐渐成为医生和医学家关注的重点,比例在增高,甚至部分领域高于目前的人工智能辅助诊断研究。
疾病预后评估智能模型的构建及研究,同样需要结合临床医生的思维和诊断流程,比如肺癌、肝癌的智能预后评估,危险性主要跟其结节大小、部位、边界、质地均一度、供应血管丰富程度、与重要脏器的毗邻关系、与重要血管的毗邻关系和病理学结果,这样才能让机器学习到相关性强的深层特征。
总之,医学人工智能是数字医学发展的新方向,为现代医学研究的主流热点,是未来医学发展的必然趋势。现在医学人工智能尚处于弱人工智能时代,不具备沟通的功能和能力,仍然需要人工智能技术的不断提高和完善,以期早日实现人机智能交流。同时,由于医学问题的因果关系链复杂、精准度要求高、病人个体差异大,所以对医学人工智能产品的要求很高,虽然研究成果多,但产品产出慢,耗时长,耗钱多,我们需要有足够的耐心等待其发展。因此,医学人工智能的研究往往需要针对某一种疾病,制定一个短期、中期和长期的计划。短期计划,即利用较小的训练集样本库,完成人工智能初步模型的构建,获得较好的测试验证结果;中期计划,利用至少几百例、甚至是多中心的大样本训练集,对人工智能模型进行优化完善,并在临床前瞻试验中得到验证;长期计划,在较完善训练集模型的基础上,继续扩大样本量至几千例,提升模型的泛化能力和兼容性,以提高诊断和预后评估的精度准,降低错诊、漏诊和误诊的概率,达到产品上市的条件。
医学人工智能时代已经来临,我们亟须紧跟数字医学和人工智能时代步伐,激流勇进,为未来医学的创新和改革做出贡献。
人工智能的起源与发展
凡是过往,皆为序章。
Pastisprologue.
—莎士比亚《暴风雨》
人们对这句话有两种理解。
一种理解是,过去已经预先决定了后续将要发生的事。因此,我相信,人工智能如何发展到今时今日的过程将决定我们在这个领域的未来方向。所以研究过去是值得的;
另一种是,过去其实无足轻重,大部分重大的事情接下来才会发生。我也认同这种理解。在人工智能领域,现在甚至连起步阶段都算不上,我们还需要应对很多难题。
早期阶段
JohnMcCarthy在1956年举办的Dartmouth会议上提出“人工智能”(artificialintelligence)这个词。这份提案由多人共同完成,按照顺序依次是达特茅斯学院的JohnMcCarthy、哈佛大学的MarvinMinsky、IBM的NathanielRochester以及贝尔实验室的ClaudeShannon。
JohnMcCarthy在提案的导言里概括了一些人工智能的主题,包括如何让计算机使用人类语言;如何利用神经元网络;机器如何自我改进(学习或者进化);机器如何凭借自身的传感器形成抽象画面,以此来“观察”世界等等。
他们可真是雄心勃勃!回想起来,当时全球只有为数不多的几台计算机,而且每台最多也就只有几十KB的内存。
当然,JohnMcCarthy并不是第一位讨论机器和“智能”的人。实际上,AlanTuring在此之前就已经撰写和发表过相关文章,但并不是以“人工智能”这个词去描述。他最广为人知的著作是出版于1950年的《计算机器与智能》(ComputingMachineryandIntelligence)。在这篇论文中,他介绍了“模仿游戏”(ImitationGame),后来被称为“图灵测试”(TuringTest)。虽然论文题目包含了“智能”,但是正文里这个词仅提到一次。这个词是指尝试制造模仿成年人的机器的人类智能。他相信机器可以像人类一样思考的可能性,并在当时预测2000年这个目标可以达到。
在更早之前,一篇名为《智能机器》(IntelligentMachinery)的论文在1948年已经撰写完成,但直到1970年才发表。
人工智能最初的灵感来源于人类表现和人类智能。我认为在最开始的60年,这个目标已经吸引了大量的研究人员进入该领域。但实际上,我们还没有任何研究成果是接近这个目标的。这并非因为研究人员不够努力,也不是他们不够出色,而是实现这个目标过于艰难。
发展至今
正如图灵所推论的一样,人工智能的早期研究主要集中在几乎不需要感知或行动的领域。当时在游戏方面有一些研究,利用键盘和打印机,人类动作可以轻松地输入计算机或从计算机输出。
编写可以玩游戏的程序很快就衍生出了“树搜索”的概念,这是很多早期人工智能实验的关键,而且事实上,它现在已成为很多计算机科学的基本工具。
人们开发了一个“积木世界”的领域,可以探索所有类型的智能技术。1963年,美国麻省理工大学的LarryRoberts发表论文,展示了在精心设计的光照场景中,拥有平滑表面的积木的所有边缘都可以复原。这可能是最早一篇关于计算机视觉的博士论文。
有人研究过在一个二维积木世界中利用虚拟机器人解决问题。这个机器人可以从积木堆顶部拾取木块,或者将木块放置至一个虚拟的一维空间里。
还有人研究自然语言理解领域,所有这些问题都在复杂的三维积木世界中寻求答案。
随着时间推移,人们对人工智能分支领域特定问题的解决方案理解愈加深入,人工智能的子领域就有可能随之发展起来。之后不久出现了新的研究课题。人工智能覆盖的课题很广泛,没人能全部都了解。这些子领域包括:自然语言处理、搜索、游戏、神经元网络、机器推理、统计机器学习、机器人技术、移动机器人技术、同步定位和绘图、计算机视觉和图片理解等等。
强人工智能或通用人工智能(AGI)
我认为媒体和那些非业内人士最近被一个名字搞糊涂了,他们称之为强人工智能或通用人工智能。还有一些机构称呼他们自己为AGI机构/公司。据我所知这个领域的进展微乎其微。这会使媒体和非业内人士产生误解,以为现在才真正地推动与人类智慧水平相当的人工智能。然而,事实上成千上万的人工智能研究人员已经在这个领域工作了62年,并没有突然出现拐点。
为什么写这篇文章?
我是想澄清关于人工智能的一些混淆之处。
关于人工智能的起源
在经历了一个多世纪的研究后,人工智能(AI)最近变成了一个热门并且异常重要的领域。尤其值得一提的是,模式识别和机器学习已经发展到深度学习(DL),这是一个比较新的名称,指的是从经验中学习的人工神经网络(NN)。DL目前已广泛应用到了工业和日常生活中。您智能手机上的图像和语音识别,以及从一种语言到另一种语言的自动翻译,就是DL发挥作用的两个例子。在讲英语的盎格鲁文化圈中,许多人以为DL是盎格鲁文化圈国家的一项发明创造。但实际上,DL却是在英语并非官方语言的国家发明的。首先,让我们把目光投向过去,以整个计算史为背景了解AI的发展进程。早期的计算先行者安提基特拉机械(AntikytheraMechanism)于公元前一世纪在希腊建造,是最早的机械计算机器之一。该装置通过37个大小各异的齿轮运转,用于预测天文现象。
安提基特拉机械的先进性在其后1600年内一直未被超越,直到纽伦堡的彼得·亨利因(PeterHenlein)于1505年开始制造小型怀表。但是,与安提基特拉机械一样,亨利因的机械也不是针对用户给出的输入来计算结果的通用机器。它们只是使用齿轮比来对时间做除法而已。手表将秒数除以60得到分钟数,将分钟数除以60得到小时数。但在1623年,图宾根的威廉·希卡德(WilhelmSchickard)建造了首台进行基本算数的自动计算机。紧随其后的是1640年布莱斯·帕斯卡(BlaisePascal)的Pascaline加法器。随后在1670年,戈特弗里德·威廉·莱布尼茨(GottfriedWilhelmLeibniz)发明了步进计算器,这是首台能够进行加、减、乘、除所有四种基本运算的机器。1703年,莱布尼茨发表了《二进制算术阐释》(ExplanationofBinaryMathematics),这就是现在几乎所有现代计算机上都在使用的二进制计算方法。数学分析和数据科学也在不断发展。大约在1800年,卡尔·弗里德里希·高斯(CarlFriedrichGauss)和阿德里安-马里·勒让德(Adrien-MarieLegendre)通过线性回归(现在有时称为“浅层学习”)发展出了模式识别的最小二乘法。高斯就是使用了这种算法让人们再次观测到小行星谷神星。他分析了先前观测的数据点,然后使用多种技巧来调整预测算式的参数,从而准确预测了谷神星再次出现的位置,这让高斯名声大噪。差不多在同一个时期,法国出现了第一台实用的程控机器:由穿孔卡片编程的自动织布机。1800年左右,约瑟夫·玛丽·雅卡尔(JosephMarieJacquard)和同事就此成为了第一批事实上的程序员。1837年,英格兰的查尔斯·巴贝奇(CharlesBabbage)设计了被称为“分析机”的更通用的程控机器。当时没有人能够把它造出来,也许是因为它的设计仍然基于繁琐的十进制而不是莱布尼兹的二进制运算。不过,至少他设计的通用性次之的“差分机2号”在1991年造出的样机表明能够运行。20世纪伊始,智能机器方向上的进步大大加快。以下列出了1900年以来与AI发展相关的主要里程碑:11914年,西班牙人莱昂纳多·托雷斯·伊·克维多(LeonardoTorresyQuevedo)使用电磁元件建造了第一台国际象棋自动机。它能从任何位置开始完成王车残局而无需人工干预。当时,国际象棋被认为是一种高智力水平的活动。1931年,奥地利人库尔特·哥德尔(KurtGödel)提出了第一种基于整数的通用编码语言,从而成为AI理论以及整个理论计算机科学的奠基者。他用这种编码语言来描述通用的计算定理证明器,确定数学、运算和AI的基本限制。1960年代和1970年代,AI和专家系统中许多后来的工作都将哥德尔的方法应用于定理证明和推论。
1935年,美国数学家阿隆佐·邱齐(AlonzoChurch)发表了哥德尔1931年成果的扩展,解决了“可判定性难题”,也就是决策难题,引入了被称为“λ演算”的替代通用语言。这便是流行编程语言LISP的基础。英国的艾伦·图灵(AlanTuring)在1936年使用了另一种同样强大的理论结构重新构造了这项成果,现在这种结构被称为“图灵机”(图1)。他还提出了一种主观AI测试。
图1:英国人艾伦·图灵在1936年使用被称为图灵机的理论结构重构了流行编程语言LISP。(来源:EQRoy/Shutterstock.com)
41935年至1941年间,康拉德·楚泽(KonradZuse)建造了第一台具有实用意义并且可以工作的程序控制计算机Z3。在1940年代,他还设计了第一种高级编程语言,并用它编写了第一个通用国际象棋程序。1950年,楚泽制造出世界第一台商用计算机Z4,比第一台UNIVAC早了几个月。5尽管“AI”这一名称是约翰·麦卡锡(JohnMcCarthy)在1956年的达特茅斯会议上创造的,但早在五年之前,在巴黎举办的著名的计算机与人类思想大会(“LesMachinesàCalculeretlaPenseeHumaine”)上就已讨论这个主题。赫伯特·布鲁德勒(HerbertBruderer)非常恰当地将其称为首次关于AI的大会。在那次有数百名世界专家参加的会议上,诺伯特·维纳(NorbertWiener)和前面提到的托雷斯·伊·克维多著名的国际象棋机进行了一场对局。620世纪50年代后期,弗兰克·罗森布拉特(FrankRosenblatt)开发了用于“浅层神经网络”的感知机和简单学习的算法。这些实际上是高斯和勒让德在1800年左右推出的古老线性回归器的变形。罗森布拉特后来还考虑过更深度的网络,但并未取得太多进展。
71965年,两位乌克兰人阿列克谢·伊瓦赫年科(AlexeyIvakhnenko)和瓦伦丁·拉帕(ValentinLapa)发表了第一篇有关具有任意层数的深层多层感知机学习算法的文章。如果说前馈网络领域中有一位“深度学习之父”,一定非伊瓦赫年科莫属。即使按照2000年以后的标准,他的网络也属于深层(达到8层)。和如今的深度神经网络类似,他的网络能够通过学习来创建分层和分布式的传入数据内部表述。最近几十年来,深度学习变得非常重要。它是AI的一个专门化分支,在某种程度上与人脑有关;人脑包含大约1000亿个神经元,每个神经元都与1万个其他神经元相连接。其中有些是输入神经元,可为其他神经元提供数据(听觉、视觉、触觉、痛觉、饥饿感)。还有一些神经元是输出神经元,可以控制肌肉。大多数神经元隐藏于二者之间,思维就在这些神经元中进行。大脑通过改变连接的强度或权重来学习,这些连接决定了神经元相互影响的强度,并对一生中的所有经历进行编码。如今的深度学习人工神经网络正是由此获得启发,能够比之前的方法更好地学习。81969年,马文·明斯基(MarvinMinsky)和西摩·佩珀特(SeymourPapert)的出名著作《Perceptrons:anintroductiontocomputationalgeometry》(感知机:计算几何学导论)介绍了浅层学习的局限性,探讨了这个实际上已在4年前由阿列克谢·伊瓦赫年科和瓦伦丁·拉帕解决的问题。有人说明斯基的书延缓了与神经网络有关的研究,但事实并非如此,或者说在美国之外进行的研究肯定不是这种情况。在随后的几十年里,许多研究者(尤其是在东欧)以伊瓦赫年科等人的成果为基础继续研究。即使是在2000年代,人们仍在使用他被广泛引用的方法来训练深层网络。
人工智能的火热,令人们都以为这是近年发明的新科技,但其实人工智能的发展在人类历史可算是源远流长,令人意想不到。
作者:JürgenSchmidhuber
JürgenSchmidhuber经常被媒体誉为「现代人工智能之父」。他在大约15岁时就希望能开发一种比他自己更聪明、能够自我完善的人工智能(AI),并以此作为退休之前的主攻目标。他的实验室自1991年起引领了深度学习神经网络的研究,提出了包括长短期记忆(LSTM)在内的多项技术,为机器学习领域带来了革命性的创新。到2017年,LSTM已经在30亿设备上得到运用,每天由全球数家市值最高上市公司的用户发起的使用请求多达数十亿次。LSTM显著改善了超过20亿台Android手机的语音识别功能(2015年起);谷歌翻译使用LSTM大幅改善了机器翻译的质量(2016年起);Facebook每天使用LSTM技术执行逾45亿次自动翻译(2017年);苹果公司在约10亿台iPhone的Siri和Quicktype功能中采用了LSTM技术(2016年起);亚马逊公司的Alexa语音助手也采用LSTM技术来回答问题(2016年起);还有各种数不胜数的其他应用也采用了LSTM技术。2011年,他的团队率先借助深度神经网络技术赢得了一项官方举办的计算机视觉识别大赛,并且识别能力超过了人类;2012年,他们又率先借助深度神经网络技术赢得了一项以检测癌症为主题的医疗影像识别大赛。这些成就无不引起了业界的极大兴趣。此外,它的研究小组还涉足元学习、数学严谨的通用AI,以及在通用问题求解中通过自我学习实现递归自我改善(1987年起)。在1990年代,他在研究中引入了无监督对抗神经网络,这些神经网络通过极大极小博弈(minimax)的方式相互竞争,以实现人工好奇心等特性。他的创造力,好奇心和乐趣的正式理论解释了艺术,科学,音乐和幽默。他提出的有关创造力、好奇心和乐趣的形式理论可以为艺术、科学、音乐和幽默提出解释。他还概括了算法信息论和物理学中的多世界理论,并且引入了「低复杂度美学」的概念,也就是信息时代的极简艺术形式。他在研究生涯中获奖无数,写作了超过350篇经过同行评审的论文,并且频繁现身大型活动的主题演讲。他是NNAISENSE公司的首席科学家,该公司肩负着率先实现实用的通用AI的使命。他还向许多政府机构提供有关AI战略的建议。
原文标题:人工智能的起源可以追溯到古希腊
文章出处:【微信公众号:贸泽电子设计圈】欢迎添加关注!文章转载请注明出处。
责任编辑:haq