传统图像算法和深度学习图像处理的区别
**
前言**刚入门图像那会儿,我记得当时有个疑问就是传统图像处理算法和深度学习卷积神经网络的区别到底在哪,在这打算用比较通俗的解释和浅显的例子对这个问题做个解释,希望可以帮助到有需要的同学。
一、传统图像处理算法说到传统图像算法,相信大家第一想到的可能是openCV这个开源库,但其实这个库里面目前已经引入了很多深度学习算法例如YOLO、SSD等,但对于刚使用openCV不久的同学们来说应该是对其中一些常用的API函数比较熟悉,例如:Sift、HOG、Harris等算法,这些都是比较常见的传统图像处理算法。当然传统图像算法也包括一些经典的机器学习算法例如支持向量机、主成分分析等。
传统图像算法在AlexNet出现之前是人们运用图像处理的主要手段,传统图像处理算法注重于“算法”二字,说白了就是重点通过计算来处理图像矩阵。
举例:试卷上有一道几何题,小明需要判断题中的几何图形是个什么类型的角:这时小明想到了用量角器来判断角度:所以小明通过量角器最终判断出了是个直角。
那么如上的例子说明的就是个传统图像算法的过程。
二、深度学习卷积神经网络我们常说的深度学习在计算机视觉中的运用常指DCNN(深度卷积神经网络),而DCNN的开端可以从2012年的AlexNet开始算起,后来快速在全球流行起来,后来陆续出现一系列计算机视觉的强力引擎(backbone)例如VGG、ResNet、darknet等网络框架。
DCNN处理图像逐渐在很多领域替代了传统图像的一些算法,用深度学习来处理图像注重于“学习”二字,机器开始用现成的东西去判断图像的信息,而不是单纯的通过算来判断图像了,当然在机器学习的过程中也要通过算来处理(例如convolution、inconvolution等算子),但我们在这里理解为学习更加直观。
于是机器有了判断图像中特征的能力(先学习再判断):通常来说DCNN在图像中的运用过程分为四步:收集数据、定义模型、训练、预测
而在上图中的训练,便是计算机进行学习的过程,计算机通过一张张贴了标签的图片数据知道了哪些图片对象是狗;哪些对象是猫,从而记住了这些对象的特征从而存储在自己的“知识库”中。
最后通过学习的知识库对不同的对象进行分类:通俗举例解释:试卷上还是这道几何题,要小明需要判断题中的几何图形是什么类型的角:
而这次小明想到了课堂上学习过直角三角板的一个角是直角,而且小明一眼看到题目中需要判断的角和直角三角板的一个角很像,于是通过比对发现这两个角是一样的,所以推断出这是个直角。其实这就是个深度学习图像处理的过程,在判断图形的过程中,小明甚至不需要知道直角是90度,也不需要计算测量,小明只需要跟已学过的知识进行比对配对,便可以判断出这是个什么角。而在此例子中,三角板便可以看作是数据集,直角三角板可以看作是标签,上图可以看作是一个预测分类过程。
总结这两种算法都有自己的优劣,例如传统算法计算过程过于繁琐,运用的函数复杂性远高于DCNN,而DCNN深度学习需要丰富的数据集和超强的算力才足以支持其在现实中的运用。
而目前之所以深度学习图像处理的热度要比传统算法高很多是因为目前传统图像算法的进步速度要低于DCNN的进步速度,这让DCNN更受大公司们的青睐。
人工智能
图像识别技术是信息时代的一门重要的技术,其产生目的是为了让计算机代替人类去处理大量的物理信息。随着计算机技术的发展,人类对图像识别技术的认识越来越深刻。图像识别技术的过程分为信息的获取、预处理、特征抽取和选择、分类器设计和分类决策。简单分析了图像识别技术的引入、其技术原理以及模式识别等,之后介绍了神经网络的图像识别技术和非线性降维的图像识别技术及图像识别技术的应用。从中可以总结出图像处理技术的应用广泛,人类的生活将无法离开图像识别技术,研究图像识别技术具有重大意义。
1、图像识别技术的引入图像识别是人工智能的一个重要领域。图像识别的发展经历了三个阶段:文字识别、数字图像处理与识别、物体识别。图像识别,顾名思义,就是对图像做出各种处理、分析,最终识别我们所要研究的目标。今天所指的图像识别并不仅仅是用人类的肉眼,而是借助计算机技术进行识别。虽然人类的识别能力很强大,但是对于高速发展的社会,人类自身识别能力已经满足不了我们的需求,于是就产生了基于计算机的图像识别技术。这就像人类研究生物细胞,完全靠肉眼观察细胞是不现实的,这样自然就产生了显微镜等用于精确观测的仪器。通常一个领域有固有技术无法解决的需求时,就会产生相应的新技术。图像识别技术也是如此,此技术的产生就是为了让计算机代替人类去处理大量的物理信息,解决人类无法识别或者识别率特别低的信息。
1.1图像识别技术原理其实,图像识别技术背后的原理并不是很难,只是其要处理的信息比较繁琐。计算机的任何处理技术都不是凭空产生的,它都是学者们从生活实践中得到启发而利用程序将其模拟实现的。计算机的图像识别技术和人类的图像识别在原理上并没有本质的区别,只是机器缺少人类在感觉与视觉差上的影响罢了。人类的图像识别也不单单是凭借整个图像存储在脑海中的记忆来识别的,我们识别图像都是依靠图像所具有的本身特征而先将这些图像分了类,然后通过各个类别所具有的特征将图像识别出来的,只是很多时候我们没有意识到这一点。当看到一张图片时,我们的大脑会迅速感应到是否见过此图片或与其相似的图片。其实在“看到”与“感应到”的中间经历了一个迅速识别过程,这个识别的过程和搜索有些类似。在这个过程中,我们的大脑会根据存储记忆中已经分好的类别进行识别,查看是否有与该图像具有相同或类似特征的存储记忆,从而识别出是否见过该图像。机器的图像识别技术也是如此,通过分类并提取重要特征而排除多余的信息来识别图像。机器所提取出的这些特征有时会非常明显,有时又是很普通,这在很大的程度上影响了机器识别的速率。总之,在计算机的视觉识别中,图像的内容通常是用图像特征进行描述。
1.2模式识别模式识别是人工智能和信息科学的重要组成部分。模式识别是指对表示事物或现象的不同形式的信息做分析和处理从而得到一个对事物或现象做出描述、辨认和分类等的过程。
计算机的图像识别技术就是模拟人类的图像识别过程。在图像识别的过程中进行模式识别是必不可少的。模式识别原本是人类的一项基本智能。但随着计算机的发展和人工智能的兴起,人类本身的模式识别已经满足不了生活的需要,于是人类就希望用计算机来代替或扩展人类的部分脑力劳动。这样计算机的模式识别就产生了。简单地说,模式识别就是对数据进行分类,它是一门与数学紧密结合的科学,其中所用的思想大部分是概率与统计。模式识别主要分为三种:统计模式识别、句法模式识别、模糊模式识别。
2、图像识别技术的过程既然计算机的图像识别技术与人类的图像识别原理相同,那它们的过程也是大同小异的。图像识别技术的过程分以下几步:信息的获取、预处理、特征抽取和选择、分类器设计和分类决策。
信息的获取是指通过传感器,将光或声音等信息转化为电信息。也就是获取研究对象的基本信息并通过某种方法将其转变为机器能够认识的信息。
预处理主要是指图像处理中的去噪、平滑、变换等的操作,从而加强图像的重要特征。
特征抽取和选择是指在模式识别中,需要进行特征的抽取和选择。简单的理解就是我们所研究的图像是各式各样的,如果要利用某种方法将它们区分开,就要通过这些图像所具有的本身特征来识别,而获取这些特征的过程就是特征抽取。在特征抽取中所得到的特征也许对此次识别并不都是有用的,这个时候就要提取有用的特征,这就是特征的选择。特征抽取和选择在图像识别过程中是非常关键的技术之一,所以对这一步的理解是图像识别的重点。
分类器设计是指通过训练而得到一种识别规则,通过此识别规则可以得到一种特征分类,使图像识别技术能够得到高识别率。分类决策是指在特征空间中对被识别对象进行分类,从而更好地识别所研究的对象具体属于哪一类。
3、图像识别技术的分析随着计算机技术的迅速发展和科技的不断进步,图像识别技术已经在众多领域中得到了应用。2015年2月15日新浪科技发布一条新闻:“微软最近公布了一篇关于图像识别的研究论文,在一项图像识别的基准测试中,电脑系统识别能力已经超越了人类。人类在归类数据库ImageNet中的图像识别错误率为5.1%,而微软研究小组的这个深度学习系统可以达到4.94%的错误率。”从这则新闻中我们可以看出图像识别技术在图像识别方面已经有要超越人类的图像识别能力的趋势。这也说明未来图像识别技术有更大的研究意义与潜力。而且,计算机在很多方面确实具有人类所无法超越的优势,也正是因为这样,图像识别技术才能为人类社会带来更多的应用。
3.1神经网络的图像识别技术神经网络图像识别技术是一种比较新型的图像识别技术,是在传统的图像识别方法和基础上融合神经网络算法的一种图像识别方法。这里的神经网络是指人工神经网络,也就是说这种神经网络并不是动物本身所具有的真正的神经网络,而是人类模仿动物神经网络后人工生成的。在神经网络图像识别技术中,遗传算法与BP网络相融合的神经网络图像识别模型是非常经典的,在很多领域都有它的应用。在图像识别系统中利用神经网络系统,一般会先提取图像的特征,再利用图像所具有的特征映射到神经网络进行图像识别分类。以汽车拍照自动识别技术为例,当汽车通过的时候,汽车自身具有的检测设备会有所感应。此时检测设备就会启用图像采集装置来获取汽车正反面的图像。获取了图像后必须将图像上传到计算机进行保存以便识别。最后车牌定位模块就会提取车牌信息,对车牌上的字符进行识别并显示最终的结果。在对车牌上的字符进行识别的过程中就用到了基于模板匹配算法和基于人工神经网络算法。
3.2非线性降维的图像识别技术计算机的图像识别技术是一个异常高维的识别技术。不管图像本身的分辨率如何,其产生的数据经常是多维性的,这给计算机的识别带来了非常大的困难。想让计算机具有高效地识别能力,最直接有效的方法就是降维。降维分为线性降维和非线性降维。例如主成分分析(PCA)和线性奇异分析(LDA)等就是常见的线性降维方法,它们的特点是简单、易于理解。但是通过线性降维处理的是整体的数据集合,所求的是整个数据集合的最优低维投影。经过验证,这种线性的降维策略计算复杂度高而且占用相对较多的时间和空间,因此就产生了基于非线性降维的图像识别技术,它是一种极其有效的非线性特征提取方法。此技术可以发现图像的非线性结构而且可以在不破坏其本征结构的基础上对其进行降维,使计算机的图像识别在尽量低的维度上进行,这样就提高了识别速率。例如人脸图像识别系统所需的维数通常很高,其复杂度之高对计算机来说无疑是巨大的“灾难”。由于在高维度空间中人脸图像的不均匀分布,使得人类可以通过非线性降维技术来得到分布紧凑的人脸图像,从而提高人脸识别技术的高效性。
3.3图像识别技术的应用及前景计算机的图像识别技术在公共安全、生物、工业、农业、交通、医疗等很多领域都有应用。例如交通方面的车牌识别系统;公共安全方面的人脸识别技术、指纹识别技术;农业方面的种子识别技术、食品品质检测技术;医学方面的心电图识别技术等。随着计算机技术的不断发展,图像识别技术也在不断地优化,其算法也在不断地改进。图像是人类获取和交换信息的主要来源,因此与图像相关的图像识别技术必定也是未来的研究重点。以后计算机的图像识别技术很有可能在更多的领域崭露头角,它的应用前景也是不可限量的,人类的生活也将更加离不开图像识别技术。
图像识别技术虽然是刚兴起的技术,但其应用已是相当广泛。并且,图像识别技术也在不断地成长,随着科技的不断进步,人类对图像识别技术的认识也会更加深刻。未来图像识别技术将会更加强大,更加智能地出现在我们的生活中,为人类社会的更多领域带来重大的应用。在21世纪这个信息化的时代,我们无法想象离开了图像识别技术以后我们的生活会变成什么样。图像识别技术是人类现在以及未来生活必不可少的一项技术。
Fly-AI竞赛服务平台是为AI开发者提供数据竞赛并支持GPU离线训练的一站式服务平台。每周免费提供项目开源算法样例,支持算法能力变现以及快速的迭代算法模型。有兴趣参与图像识别、语音、自然语言处理的AI开发者,可以参与竞赛并且有奖金可以赚取。
https://www.flyai.com/d/OCRWords 3981个中文文字图像识别
https://www.flyai.com/d/BirdClassification 200种鸟类图像分类
图像处理与机器学习
随着互联网及信息技术的高速发展,人们对人工智能应用的需求也更加广泛和迫切。“图像处理与机器学习”是人工智能应用领域中不可或缺的重要技术;是信息科学、计算机科学、自动化科学等学科学习和研究的对象。
“图像处理”是利用计算机对视觉信息(数字图像)进行处理;“机器学习”是使计算机具有分析和理解能力。本课程详细讲授“图像处理与机器学习”的原理、方法及技术。学生通过该课程的学习,可以掌握图像增强、图像分割及图像分析与理解等方面的知识与技能,从而成为信息技术领域的工程师。
课程包含“数字图像处理”与“机器学习”两部分。“数字图像处理”主要包括图像增强、形态学处理、图像分割等。“机器学习”部分主要包括贝叶斯决策、人工神经网络以及深度学习导论。
课程以理论为基础、以实践为导向、以应用为目标。在讲授相关知识点及算法原理的同时,设计了具有实际应用背景的相关基础实验。此外,为提高学生解决人工智能应用领域中的实际工程问题的能力,课程以授课教师的科研项目为基础,设计了综合性应用专题。为体现课程的实践性,基础实验与综合专题均以VC++和Pathon为编程工具。
为开阔学生视野,紧跟信息技术最新进展,课程还包括若干“图像处理与机器学习”的科研专题,如基于深度学习的签名认证算法研究、抑郁症MRI图像分类算法研究等。
学生通过本课程的学习,夯实理论基础、强化动手能力、提升综合素质,成为人工智能应用领域的工程师。
【前沿】人工智能、深度学习和影像组学在核医学影像中的应用
本文的目的是给出人工智能(AI,机器/深度学习)和影像基因组学的定义,同时对这些技术在核医学成像中的潜在应用提出一些见解。
人工智能、机器(深度)学习和影像(基因)组学的定义
人工智能这个术语是一个“模糊概念”,根据不同的语境、时间和应用场合,其有许多种可能的定义。作为一门学科,它被认为是于1956年在达特茅斯会议上确立的[6]。一个更普遍的定义为:“机器表现出来的智慧,与人类和其他动物所展现的自然智慧形成鲜明对比”。然而,就现在的医学影像而言,一个更具体的定义可能更为恰当:“系统能够正确地解释外部数据,从这些数据中学习并利用所学实现特定目标或完成特定任务的能力,具有灵活的适应性”[7]。随着算法处理的任务越来越复杂,那些被认为需要“智能”的算法有时会被从AI领域中剔除,从而导致有“AI尚未完成”的论调[8]。举一个这方面的例子:字符识别,它可能不再被视为“人工智能”,因为它现在已经成为一种标准的常规使用的技术,例如其在邮政服务中的应用。如今通常被视为AI的算法中众所周知的功能包括语音识别,更重要的语义理解、语言翻译、掌握复杂的游戏,例如围棋[9]和最近更复杂的策略视频游戏2,或者自动驾驶汽车。
人工智能系统可分为分析型人工智能、人类启发型人工智能和人性化人工智能[7]。分析型的人工智能系统只具有与认知智能相关的特征,利用过去的经验学习进行预测。人类启发型人工智能系统除了能够认知元素外,还具有情感方面的智能和理解能力。人性化人工智能系统能够展现出认知、情感和社交方面的智能,并且在与他人互动时具有自我意识和自我认知。在二十一世纪,人工智能技术的发展得益于理论认识的提高(例如:在神经网络数学中)、计算机性能的进步(例如:图形处理单元,GPU)、海量可用于学习的数据可在更大范围内的获取途径(例如:通过社交网络和其他平台,云存储/计算等方式)以及算法和库本身的可利用性。因此,现在研究人员可以将旧的概念和理论实际应用到现实生活中的问题和任务中,即使是现有商用系统上的非专业人士也能够运用这些概念和理论。
在医学影像方面,临床医生需要通过影像来完成许多任务,理论上都可以由人工智能来完成,包括但不限于:病灶检测、疾病分类、诊断和分期、定量化、治疗计划(靶区和有风险器官的勾画、剂量优化)、治疗的反应和预后的评估[10]。自动化有望使这些任务以更高的鲁棒性和可重复性得以完成,甚至还可能使这些任务在更短的时间内以低错误率得以完成。显然,在除医学影像以外的其他方面,人工智能也可以提供改进实践的解决方案,例如:改进操作流程、财务管理和质量提升等[11]。为医学影像分析任务而开发的大多数(如果不是全部)人工智能系统都属于分析型系统的类别,因此可以归类为机器/深度学习技术。
机器(深度)学习
机器学习是通过实践学习和改进算法的研究,它本身就是AI的一个基本概念。机器学习通常分为无监督的学习和有(半)监督的学习。无监督学习是在未标记数据中查找模式[12],而有监督学习使用标签来推断分类或归纳,半监督学习通常用少量的标记的数据和大量未标记的数据进行分类或归纳[13]。在医学显像方面,标准工作流程或机器学习流程通常会被直接应用于完成大多数的任务(如图1所示)。
图1影像组学流程与一般的机器学习和深度学习流程图的比较
深度学习(与如上所述的“浅层”学习方法相反)是属于机器学习领域的一类方法,这些方法大多基于所使用的特定类型的人工神经网络,有时具有大量的层和节点。因此,深度学习是一种特定类型的机器学习,它本身就是AI的一部分(如图2所示)[17]。
图2深度学习是机器学习的一种特定类型,两者属于AI概念
这些技术依赖于多层非线性处理单元链接起来进行特征提取和转换,其中在每两个连续层间,后一层的输入是前一层的输出,因此,与不同抽象级别相对应的多层特征信号可以被学习[18]。尽管神经网络在很早之前就被设计出来了,但通过通用程序进行有效学习能力的“深层”网络是最近才出现的。此外,卷积神经网络(CNN)在计算机视觉和成像应用的主要影响被认为是在2011年和2012年的真正突破。使用反向传播(B-P)算法训练的CNN训练已经存在了数十年,GPU的实现也有好几年了。然而,在2012年,Cireşan等人展示了在GPU上实现的最大池化CNN是如何在许多视觉基准中为研究人员提供更好的结果。同年,Krizhevsky等人使用类似的CNN设计,以比浅层机器学习方法好得多的性能赢得了ImageNet竞赛[19]。
这些技术与上述“旧”机器学习方法之间的主要区别之一是,这些网络的目的是从数据本身(如图像)中学习与给定任务(例如,分割或端点预测)相关的特定模式,而不是依赖于“工程的”或“手工的”特征(包括专家的知识)[22,23]。在这方面,这些方法可以认为是一种思考模式的转变,因为它们可依赖通用的学习过程为研究人员提供“端到端”的工作流程(如图1所示)。
因此,用户干预,例如,检测和选择感兴趣的对象以便对其进行进一步的表征,可以被极大地简化,甚至可以说是不必要的。另一方面,当我们考虑使用这些技术时需要充分了解到它们带来的许多挑战。深层神经网络具有大量的超参数,由于计算资源和时间的限制,通过探索参数空间来寻找最优参数通常是不可行的。一些技巧可以帮助我们加快计算速度,例如在几个样本中同时计算梯度(批处理)。GPU的强大处理能力可以使训练速度得到显著提高。深层神经网络也容易出现过度拟合,这一定程度上是因为深层神经网络中的大量的层使得深层神经网络可以对在训练数据中所观察到的罕见依赖关系进行建模。这种情况下,我们通常采用各种方法,例如正则化和降维,来限制过拟合情况[24]。还可以通过诸如缩放和旋转的方法来增加数据,以增加所需训练集的大小[25]。最后,迁移学习是一个重要的组成部分,即对不同数据集,尽管可能是较大的数据集,提取较小数据进行预训练对其进行更精确的参数调整[26,27]。
影像(基因)组学
在过去二十年中,PET/CT硬件和重建软件均有所改进,同时研究人员在PET/CT图像处理和分析领域也取得了一些进展:噪声过滤[28,29]和部分容积效应校正方法[30]可以进一步提高PET图像的视觉质量和定量精度。此外,(半)自动图像分析算法可以检测到感兴趣的病灶[31],并且可以以比人类专家更高的可重复性和鲁棒性来勾画它们[32-34]。这些进展通过从预处理和分割后的PET/CT图像中提取定量指标(“手工的”或“工程的”图像特征),让研究人员可以对器官和肿瘤进行更全面的表征。在这种情况下,当前有关PET/CT成像的大部分工作都集中在临床上最常用的放射性示踪剂上,即18F-氟脱氧葡萄糖(18F-FDG),很少有研究考虑其他示踪剂[35]。图1所示的四个步骤(预处理、分割、特征提取和建模)是影像组学领域的关键组成部分。“影像组学”一词首次出现在2010年,并且2012年研究人员对影像组学的正式框架进行了全面的描述[36]。从前面的部分我们可以知道,影像组学仅仅是标准机器学习流程(如图1所示)在医学图像方面的一个应用。影像组学研究领域发展背后的基本原理是医学图像包含肿瘤表型的特征,这些特征至少可以在较小的尺度上反映出潜在的部分病理生理学的过程,甚至包括基因水平的变化。这就是为什么“影像组学”这一术语经常与基因组学相关联,并被称为“影像基因组学”。影像基因组学事实上含有两种不同的含义。第一种,旧的含义与放射生物学有关,而和现在含义不同。第二种涉及影像组学和基因组学的关联/组合,它可以分为两种不同的方法。第一种方法研究两者之间的联系,即影像组学可以解释或“解码”哪一些基因组学信息。这种方法已被称为“显像基因组学”[37,38]并已被研究人员大量地研究过了[39,40]。另一种方法主要关注将两部分的信息相结合,该方法利用他们之间具有互补价值的信息来建立更有效的预测模型。
人工智能、深度学习和影像(基因)组学在核医学影像中的应用
人工智能在核医学中的应用极为广泛且前景广阔,其可在多个方面产生影响[41]。第一步是在探测器水平上使用人工智能对图像重建的数据处理,包括与检测过程相关的不同物理过程(如衰减、散射)的校正。除了图像重建步骤之外,人工智能还可以用于不同图像的处理过程,包括去噪、分割和融合。最后,人工智能可以用于基于图像信息的建模,这将有助于实现基于图像的个性化医疗的决策。
在检测方面,最近的工作包括通过使用CNN提高PET图像分辨率,改善具有大像素化晶体[42]的PET扫描仪的噪声特性,以及直接从配对符合数字化探测器波形中估计飞行时间[43]。将深度神经网络集成到迭代图像重建过程中,可以提高最终的图像质量[44,45]。深度学习方法已经被研究人员提议用于PET/CT和PET/MR的衰减校正和配准,并已被证明能够生成高精度的衰减图[46-50]。在同样的背景下,深度学习已经可用于改善具有飞行时间PET数据的衰减校正和放射性活度的最大似然重建(MLAA)[51]。去噪处理就是成功使用深度学习技术中一个最受欢迎的图像处理应用之一,例如从低剂量图像生成足够剂量PET图像[52]或直接对重建的PET图像进行滤波[29]。
图像中病变的自动检测、计数、分割/特征化等功能在疾病的诊断、治疗计划制定和疗效的监测等方面有广泛的应用,但更广泛的是,这些功能也适用于所有的影像(基因)组学。在很长一段时间里,依赖于旧的浅层机器学习框架的方法并不能达到自动并且准确的水平,不能完全将其转化到临床实践中,也不能在影像组学分析中对数百名患者进行快速处理。最近的一些研究进展仍然涉及使用“旧的”机器学习技术[53],但越来越多的人依赖于深度学习方法,以希望其能极大地提高自动化和性能。事实上,CNN在医学图像分割任务中的应用非常成功[22]。这可以通过以下事实来解释:与分类任务(每幅图像一个标签)相反,分割学习发生在体素水平(每个体素一个标签)。因此,学习数据数量允许对网络参数进行有效地训练。例如,尽管在最近的PET功能体分割MICCAI挑战中只有很少的训练示例可用,但基于预训练CNN的方法得分最高(虽然其分数没有明显高于一些常规的技术的分数)[32]。CNN也被应用于多模态PET/CT协同分割[34,54,55]。基于深度学习框架的肿瘤检测和分割方案可能为影像组学的这一步骤提供全自动解决方案[31,55,56],从而解决这个重要的瓶颈问题。
预测模型和基因组学研究已经严重依赖于机器学习方法[16,57-59],尽管这些方法大多运用于放射学领域,而不是核医学领域。一些对机器学习和深度学习方法的评价显示特征选择有所改进,模型构建更稳健,影像组学PET特征也变协调了[59-63]。然而,只有少数的研究通过将深度网络CNN作为端到端方法来探索深层网络CNN所能达到更高自动化水平的潜力,并且大多数研究都在CT及MRI领域[64-70],只有少数研究是关于它们在核医学成像(如FDGPET[71-73]和SPECT[74])中的应用例子。
讨论
目前,尽管有关深度特征使用及其与常规影像组学特征相结合的研究都是在CT和MRI领域进行的,但相同的概念也可应用于核医学影像。用一种基于端到端深度学习的方法替代通常的机器学习/影像组学方法可能是一种解决影像组学中一些问题或局限性的有效解决方案。在这一方法中,所有步骤是通过一个(或几个)神经网络单独并顺序执行(分割、特征萃取、建模)。然而,这种方法实际上是用其他在使用深度学习时所面临的具体挑战取代了原先的挑战。首先,这些方法需要大量的数据,其需要的数据集比影像组学通常研究中所需的数据集大得多。因此,如迁移学习和数据扩增或依赖分割网络来构建分类器[75]等方面的技术和技巧变得至关重要。其次,可提供可解释模型的需求在临床应用中也很重要。因此,很有必要向终端用户提供关于网络决策方面的反馈和解释,例如使用网络可视化技术[76]在输入图像中生成热点图而突出图像中的某个区域,甚至包括肿瘤在内,这些与最后做出的决定最相关。这对于理解和纠正算法造成的其余错误以及试图解决其他问题(包括监管、法律和责任)也很重要[77]。
在研发用于临床使用的大多数计算机方法的设计中,重大的思考模式转换正在发生。目前我们还不清楚需要多长时间才能将深度学习方法整合至临床核医学实践工作中,并使大多数临床工作实现完全自动化。目前,这些进展主要集中于解决最常见临床问题,因为研究人员可在该领域获得足够多的数据。
大多数已开发方法的目的是为了解决一项特定任务中的一个问题。尽管这些AI方法可能会很擅长解释图像和上下文信息,但他们通常无法像人脑那样建立联想,也无法代替临床医生完成所有任务。此外,他们在各种情况下的表现可能还没有达到各个领域的专家水平,因此,一名完整的具有人工智能的核医学医生,仍然属于科幻小说的范畴。另一方面,随着这些新技术整合到核医学医师的实践中,核医学医师的角色可能会发生变化,因此,将这些方法和概念的基本了解归为核医学医师培训的一部分显得非常重要。核医学医师自己也可能会为AI的培训做出贡献,为日后他们使用的工具提供更多的专家知识和经验。
在AI系统学习中,数据的可用性仍然是一个关键瓶颈,因为精心选择的数据(为确保训练数据符合许多质量标准,通常需要专家参与并且非常耗时间)根本不适合用于所有任务,并且数量也不够。另一方面,深度学习软件平台是开源的,因此,创新思维的实验和共享机制已大规模地快速发展,这最终也可能在数据处理和数据可用性方面提供帮助。对于正确训练机器和深度学习模型的另一个问题是,在图像采集和重建(尽管EANM,SNMMI和RSNA等社会组织做出来长期努力)方面,以及机器(深度)学习技术自身(包括但不限于:影像组学的定义、专业术语、实施、软件、机器学习的方法论、实施以及优化),都缺少标准化。对于训练通用模型来说,扫描器模型、供应商、采集协议和重建设置中的巨大差异性和多变性是一个巨大的挑战,这尚未解决。然而,我们应明确强调和支持一些正在进行的努力,例如用于影像组学的标准[78-80]和图像生物标志物标准化倡议(IBSI)以及统一的/标准化技术[63,81],以便今后进一步改善上述情况。
(余略)
中国医师协会核医学医师分会科普与信息化工作委员会科普与翻译组
本期翻译由以下翻译组委员翻译:
沈晨天:上海市第六人民医院、住院医师、博士
唐毅:桂林医学院第二附属医院核医学科主任,副主任医师
饶茂华:重庆医科大学附属第二医院核医学科,中级医师、硕士
白侠:内蒙古医科大学附属医院核医学科、副主任医师、硕士
赵敏:中南大学湘雅医院核医学科(PET中心)、副主任医师、博士
张茜:山西省肿瘤医院核医学科、副主任医师、博士
靳会宾:河南省人民医院核医学科、主治医师、硕士
王磊:北京市石景山医院核医学科科室负责人、主治医师、硕士学位
李桂英:北京老年医院核医学科主任、主任医师
复旦大学附属肿瘤医院宋少莉教授校稿
首都医科大学附属北京友谊医院李春林教授终审。
附:特邀校稿专家简介
宋少莉
主任医师、教授、博士研究生导师
复旦大学附属肿瘤医院核医学科主任,
上海市质子重离子医院核医学科主任
中华医学会核医学分会第十届青委副主任委员
中德医学会核医学分会常委
上海医学会核医学分会青委副主委
上海市抗癌协会第八届理事会理事
上海市核学会实验核医学与核药学主委会副主委
上海市中西医结合核医学分会常委
中华核医学与分子影像杂志、国际放射医学核医学杂志编委。2008年博士毕业于上海交通大学,2009-2010年于美国德克萨斯州MD安德森癌症中心影像诊断系博士后,入选上海市浦江人才计划、上海交通大学医学院“新百人计划”、上海交通大学医学院高峰计划“研究型医师”,主持国家自然基金项目4项,发表SCI论文43篇。
图文编辑:秦珊珊返回搜狐,查看更多