博舍

计算机视觉的技术原理与医疗领域应用 人工智能中的计算机视觉技术包括

计算机视觉的技术原理与医疗领域应用

而计算机感受外界主要依靠外挂插件进行,就像电脑、手机需要键盘、鼠标、触摸屏进行操作一样,信息的输入、处理、输出是计算机的主要功能,计算机视觉就是给计算机提供一双眼睛,并依靠人工智能的算法去教会计算机如何使用眼睛获取有用信息。通过视觉观察、理解世界,具有自主适应环境的能力,识别(检索,跨模态)、检测、分割、跟踪列算法的控制,简而言之计算机视觉是一种视频的信息输入,能够让搭载AI算法的计算机能够半自主或全自主工作,具有感知、决策、执行等基本特征,可以辅助人类提高工作效率与质量,服务人类生活,扩大或延伸人的活动及能力范围。

其原理主要离不开成像原理、数字化、图像处理到提取感知信息及信息处理,其中成像原理从小孔成像–>帧采样–>数字图像–>计算机处理–>让计算机获取感知视频信息,也就是说计算机视觉是采用图像处理、模式识别、人工智能技术相结合的手段,着重于一幅或多幅图像的计算机分析。计算机视觉技术工程化,能够自动获取和分析特定图像,以控制相应的行为。

计算机视觉包括图像处理、机械工程技术、控制、电光源照明、光学成像、传感器、模拟与数字视频技术、计算机软硬件技术(图像增强和分析算法、图像卡、I/O卡等)。一个典型的计算机视觉应用系统包括图像捕捉、光源系统、图像数字化模块、数字图像处理模块、智能判断决策模块和机械控制执行模块。核心算法也是图像处理提取信息,计算机视觉不管硬件怎么搭建特定功能的实现,主要还是图像感知信息的提取算法。

图像处理技术

图像处理是机器视觉检测的核心。在使用机器视觉对产品进行检测时需要通过以下几个环节,来实现产品图像的处理。

(1)图像采集

图像采集就是从工作现场获取场景图像的过程,是机器视觉的第一步,采集工具大多为CCD或CMOS照相机或摄像机。照相机采集的是单幅的图像,摄像机可以采集连续的现场图像。就一幅图像而言,它实际上是三维场景在二维图像平面上的投影,图像中某一点的彩色(亮度和色度)是场景中对应点彩色的反映。这就是我们可以用采集图像来替代真实场景的根本依据所在。

如果相机是模拟信号输出,需要将模拟图像信号数字化后送给计算机(包括嵌入式系统)处理。现在大部分相机都可直接输出数字图像信号,可以免除模数转换这一步骤。不仅如此,现在相机的数字输出接口也是标准化的,如USB、VGA、1394、HDMI、WiFi、BlueTooth接口等,可以直接送入计算机进行处理,以免除在图像输出和计算机之间加接一块图像采集卡的麻烦。后续的图像处理工作往往是由计算机或嵌入式系统以软件的方式进行。

(2)图像预处理

对于采集到的数字化的现场图像,由于受到设备和环境因素的影响,往往会受到不同程度的干扰,如噪声、几何形变、彩色失调等,都会妨碍接下来的处理环节。为此,必须对采集图像进行预处理。常见的预处理包括噪声消除、几何校正、直方图均衡等处理。

通常使用时域或频域滤波的方法来去除图像中的噪声;采用几何变换的办法来校正图像的几何失真;采用直方图均衡、同态滤波等方法来减轻图像的彩色偏离。总之,通过这一系列的图像预处理技术,对采集图像进行“加工”,为体机器视觉应用提供“更好”、“更有用”的图像。

(3)图像分割

图像分割就是按照应用要求,把图像分成各具特征的区域,从中提取出感兴趣目标。在图像中常见的特征有灰度、彩色、纹理、边缘、角点等。例如,对汽车装配流水线图像进行分割,分成背景区域和工件区域,提供给后续处理单元对工件安装部分的处理。

图像分割多年来一直是图像处理中的难题,至今已有种类繁多的分割算法,但是效果往往并不理想。近来,人们利用基于神经网络的深度学习方法进行图像分割,其性能胜过传统算法。

(4)目标识别和分类

在制造或安防等行业,机器视觉都离不开对输入图像的目标进行识别和分类处理,以便在此基础上完成后续的判断和操作。识别和分类技术有很多相同的地方,常常在目标识别完成后,目标的类别也就明确了。近来的图像识别技术正在跨越传统方法,形成以神经网络为主流的智能化图像识别方法,如卷积神经网络(CNN)、回归神经网络(RNN)等一类性能优越的方法。

(5)目标定位和测量

在智能制造中,最常见的工作就是对目标工件进行安装,但是在安装前往往需要先对目标进行定位,安装后还需对目标进行测量。安装和测量都需要保持较高的精度和速度,如毫米级精度(甚至更小),毫秒级速度。这种高精度、高速度的定位和测量,依靠通常的机械或人工的方法是难以办到的。在机器视觉中,采用图像处理的办法,对安装现场图像进行处理,按照目标和图像之间的复杂映射关系进行处理,从而快速精准地完成定位和测量任务。

(6)目标检测和跟踪

图像处理中的运动目标检测和跟踪,就是实时检测摄像机捕获的场景图像中是否有运动目标,并预测它下一步的运动方向和趋势,即跟踪。并及时将这些运动数据提交给后续的分析和控制处理,形成相应的控制动作。图像采集一般使用单个摄像机,如果需要也可以使用两个摄像机,模仿人的双目视觉而获得场景的立体信息,这样更加有利于目标检测和跟踪处理。

医疗领域的计算机视觉技术

近年来,伴随着医学图像采集技术的显著改善,医疗设备以更快的影像帧率、更高的影像分辨率和通信技术,实时采集大量的医学影像和传感器数据。基于图像处理技术的医学影像解释方法,也迫切希望得到解决。在医学图像处理中,GPU首先被引入用于分割和重建,然后用于机器学习。在医学领域,机器视觉主要用于医学辅助诊断。首先采集核磁共振、超声波、激光、X射线、γ射线等对人体检查记录的图像,再利用数字图像处理技术、信息融合技术对这些医学图像进行分析、描述和识别,最后得出相关信息,对辅助医生诊断人体病源大小、形状和异常,并进行有效治疗发挥了重要的作用。不同医学影像设备得到的是不同特性的生物组织图像,如X射线反映的是骨骼组织,核磁共振影像反映的是有机组织图像,而医生往往需要考虑骨骼有机组织的关系,因而需要利用数字图像处理技术将两种图像适当地叠加起来,以便于医学分析。

(1)病变检测

面向疾病预防的病变检查,包括有无病变、病理类型,是健康检查的基础任务。基于计算机的病变检测,是计算机视觉技术在智慧医疗中的重大体现,并且非常适合引入深度学习。在基于计算机的病变检测方法中,一般通过监督学习方法或经典图像处理技术(如过滤和数学形态学),计算并且提取身体部位或器官在健康状态下的特征工程。其中,基于监督学习的机器学习方法,它所使用的训练数据样本,需要专业医师提供全面的病理影像,并手工标注。特征工程计算过程产生的分类器,将特征向量映射到候选者来检测实际病变的概率。

基于卷积神经网络(CNN)的病变检测系统,病变检测的准确度提高了13-34%,而使用非深度学习分类器(例如支持向量机)几乎不可能实现这种程度的提升。CNN由输入层,两个隐藏层和输出层组成,并用于反向传播。

(2)病理图像分割

图像分割就是一个根据图像中的相似度计算,把图像分割成若干个同质区域,并且为每个区域进行定性分类的过程。在病理图像分割中,传统方法中只利用了颜色等简单特征,开发了基于区域的分割方法和基于边界的分割方法,前者依赖于图像的空间局部特征,如灰度、纹理及其它象素统计特性的均匀性等,后者主要是利用梯度信息确定目标的边界。传统方法对图像本身所蕴含的丰富信息,利用不足。在分类方法选取中,也大多是基于聚类等简单方法,存在精确性较低及适应范围小的缺陷。多节点、多层次的CNN模型,提取了图像中尽可能多的潜在特征,并对这些特征利用PCA(PrimaryComponentAnalysis,主成分选取方法)降维,选出其中的关键特征,然后结合SVM(SupportVectorMachine,支持向量机),对病理图像进行像素分割。该方法能在更大程度上利用图像本身的信息,提高了图像中细胞分类的准确率。基于卷积神经网络的计算机视觉技术,大大增强了病理图像分割过程的效率和质量。

(3)病理图像配准

图像配准是多图像融合和三维建模的前提,是决定医学图像融合技术发展的关键技术。在图像认知过程中,单一模态的图像只能提供单个维度的视角,图像中的空间信息难以全方位展示。多种模式或同一模式的多次成像通过配准融合,可以实现感兴趣区域的信息增强和上下文信息补全。在一幅图像上同时表达来自多种成像源的信息,医生就能做出更加准确的诊断或制定出更加合适的治疗方法。医学图像配准过程包括图像的多种处理方法,如定位、旋转、尺寸缩放、拓扑变换,即通过寻找一种空间变换模型,使两幅图像对应点达到空间位置和解剖结构上的映射。如果这种映射过程是一一对应的,即在重叠区域中,一幅图像中的任意像素点在另一幅图像中都有对应点,我们就称之为配准。目前,基于尺度不变特征转换和卷积神经网络的图像配准模型,是病理图像配准的主要途径。

(4)基于病理图像的三维建模与仿真

传统的病理检测,往往需要从病体切割取样,往往费时费力,还会损伤病体健康,导致治疗任务加重。基于病理图像的三维建模与可视化,则可以提高病理检查过程,同时消除检查过程对病体的影像。基于图像建模的核心问题是基于图像的几何建模问题。它研究如何从图像中,恢复器官组织的实时三维信息,并构建其几何模型,以进行三维渲染和编辑。在图像配准的基础上,基于图像的三维建模方法,主要有轮廓法、亮度法、运动法、纹理法。这些方法都需要利用图像像素计算,并提取图像特征。前者包含大量的传统图像处理操作,如对图像进行逐点处理,把两幅图像对应像素点的灰度值进行加权求和、灰度取大或者灰度取小等操作。后者,基于深度学习,对图像进行特征提取、目标分割等处理,通用性更强。基于病理图像的三维模型与仿真建模,把有价值的生理功能信息与精确的解剖结构结合在一起,可以为临床诊断和治疗提供更加全面和准确的资料。

总结

得益于深度学习技术的快速发展,计算机视觉技术和应用得到了显著进步,并推动了各行业的智能化、信息化发展,在效率、精度、重复性、人工成本、信息化打破数据孤岛、数字化再处理等方面具有巨大优势。由于医疗保健数据的敏感性和权威性,医疗卫生保健领域的深度学习,尤其是医学图像技术,发展速度非常慢。而医疗领域需要需要研究更稳定可靠的、普适的解决方案,以便有效地处理复杂的医疗影像数据,尤其是动态医学影像数据。当然,随着现代医疗系统的发展和优化,如何系统地引入计算机视觉的最新成果,实现与多学科理论的交叉融合,提升和优化临床治疗水平,医务人员和理论技术人员之间的交流就显得越来越重要。这也是现代智慧医疗应该思索的问题。无论如何,AI医学图像处理技术作为提升现代医疗诊断和治疗水平的重要工具,必将在医学信息研究领域发挥更大的作用。

参考文献:

[1]李明耀,周立明,周其伟.人工智能在医学领域的应用[J].科技传播,2019,11(20):143-144.

[2]唐家俊,白小玉.计算机视觉在医学领域的应用[J].通讯世界,2019,26(04):120-121.

[3]王一培,杨雯,张艺钊,赖茂德和徐扬.精准医学人工智能在病理图像中的应用[J].现代信息技术,2018,2(5):170-172.

[4]林瑶,田捷.医学图像分割方法综述[J].模式识别与人工智能,2002,15(2).

[5]林晓,邱晓嘉.图像分析技术在医学上的应用[J].包头医学院学报,2005,21(3):311~31

关于慧维智能

慧维智能医疗科技有限公司成立于2019年6月,专业从事智能医疗产品的研发、生产与销售。我们的核心成员,均来自全球顶尖的科研机构和世界五百强企业。慧维智能以在“人工智能”和“边缘计算”领域的自主核心技术为驱动力,致力于为全球医疗机构提供“高水准、好体验”的医疗产品与服务,最大程度地帮助医生提高诊疗水平与效率。返回搜狐,查看更多

人工智能在计算机视觉方面的应用3000字,人工智能在计算机视觉及网络领域中的应用

马俊

摘要:本文结合计算机视觉和网络领域,分析人工智能的应用,推动人工智能技术的发展。

[关键词]人工智能计算机视觉網络领域应用

信息化时代背景下,人工智能技术也随之发展,在社会生活不是领域得到推广和利用,为人们的生产和生活提供更好的便利,推动产业的发展和创新。人工智能技术的应用,推动计算机技术的发展,可以进行大量数据信息的识别,如人体动作识别等,对人工智能开发计算机视觉技术开展研究,在人类文明发展中有着重要的推动作用,推动社会的发展和进步。

1人工智能的概念分析

人工智能是一个新的概念,是ArtificialIntelligence的缩写,人工智能是一门新的科学技术,主要致力于模拟化的研究,不断完善智能理论、智能方法和智能应用。从字面上对人工智能进行理解,主要有人工和智能两个方面的内容,人工主要是利用相应的设备,为人类文明提供优质服务;智能主要是对人类思维模式进行研究、模拟和识别,有效利用机器为人类服务。随着我国社会经济的快速发展,人工智能包含着较多的思想和内涵,得到相关部门的支持,人工智能受到更多人的关注和重视,推动人工智的发展。和传统的机械设备来说,人工智能可以实现人类思维模式的模拟,是其最为突出的特点。作为金字塔顶端的人类,智慧非常高,具有非常强的创造能力。但是,由于人类对于自身智力发展缺乏了解,在人工智能的研究中,不仅仅需要注重机械水平探究,同时需要深入了解人类智慧,推动人类文明的发展,同时可以更好的自我认识和自我了解。

2人工智能和计算机视觉之间的关系

计算机视觉技术和和机器视觉技

基于AI的图像视觉处理技术

计算机视觉是一门研究如何使机器”看“的科学,作为一个学科,它试图建立能够从图像或多维数据中获取”信息“的人工智能系统。

一、检测跟踪

1.MTCNN

MTCNN是比较经典快速的人脸检测技术,它可实现两个任务:人脸检测与人脸关键点检测。这个过程由三个级联的轻量级CNN完成:PNet,RNet和Onet;图像数据先后经这三个网络的处理,最终输出人脸检测和关键点检测结果。

技术思想及原理分析

本项目的一大技术亮点就是使用了级联卷积的思想,将复杂问题简单化,化整为零,逐一攻破,既减小了问题的难度、提高了模型训练效率,还为以后解决这一类问题提供了可参考的方法。项目中的级联思想、图像金字塔、IOU、NMS、图像坐标缩放及坐标反算等技术在后续的目标检测中仍然能够看到它们的身影。

应用场景及商业价值

本项目应用最为广泛的场景就是人脸检测,如果将本项目怒扩展,实际上是可以使用在任何单类多目标的检测项目上的。比如交通车辆检测、工厂生产零部件检测、农业农作物检测、商场人流量检测等等,但凡是同类别的目标,都能够检测。本项目的商业价值在于它的普适性,目标检测类项目的应用场景广泛,在AI行业实际落地应用最多,从而也使得其商业应用价值大大增加。下图为MTCNN的测试效果展示。

2.YOLO系列

“YouOnlyLookOnce”或“YOLO”是一个对象检测算法的名字,这是Redmon等人在2016年的一篇研究论文中命名的。YOLO实现了自动驾驶汽车等前沿技术中使用的实时对象检测。

技术思想及原理分析

YOLO的渊源应该从RCNN系列说起,比较早的多类别检测识别模型是RCNN系列,包含了RCNN、fast-RCNN以及faster-RCNN,但是RCNN系列都是两阶段的,就是先检测、再分类,这样虽然说提高了检测分类精度,但是却降低了速度,所以才有了后来的YOLO系列,YOLO系列使用了划分区域和设置建议框的方法,直接把检测和分类融合成了一个阶段,模型能够同时学习检测和分类,实现了真正的端到端的模式,使得模型大大减小,从而提高的模型使用效率。虽然最早的YOLO子精度上并不能和RCNN系列比,但是在YOLOV2以后,无论是在精度上还是在效率上都已经超越了RCNN系列。

YOLO将对象检测重新定义为一个回归问题。它将单个卷积神经网络(CNN)应用于整个图像,将图像分成网格,并预测每个网格的类概率和边界框。

应用场景及商业价值

本项目和MTCNN最大的区别就是MTCNN为单类目标检测项目,而YOLO则为多类目标检测项目,而且YOLO不但能够检测目标,还能同时识别出所检测目标的类别,也就是说YOLO是同时可以检测和识别目标的,而MTCNN只能检测目标而不能识别目标,MTCNN要识别目标,则需要配上识别类模板,比如后面要介绍的centerloss和arcloss等分类模型。YOLO的应用场景包括了MTCNN的应用场景,除此之外,YOLO还能够做多类别目标检测和识别,比如同时检测识别路上的车辆和人等。

二、分类识别

1.Centerloss

centerloss是一种损失函数,有效提高了人脸识别类别的辨识度。它来自ECCV2016的一篇论文《ADiscriminativeFeatureLearningApproachforDeepFaceRecognition》。

技术思想及原理分析

Centerloss的出现是为了解决多分类损失函数softmaxloss的缺点,softxmaxloss分类的作用仅仅是把每个类别刚好分开,而不能拉开类别之间的距离,这会导致模型使用时,出现在类别边缘的样本点无法准确的分类。而centerloss的作用是把每个类别内部的样本点聚集到一起,从而扩大了类别之间的距离,防止了样本点出现在类别边缘而无法准确分类的情况。值得注意的是centerloss只一个辅助分类函数,必须要和softmaxloss一起使用才有效果,单独使用是无法达到准确分类的效果的。

应用场景及商业价值

所有分类模型的损失函数作用都是分类,但是不同的损失函数,其分类效果也大不一样。比如softmaxloss损失函数的作用是普通分类,也就是不同类别之间的分类;而centerloss损失函数的作用是进行更精细化的分类,应用场景更适合同一类别内部的样本实例分类,比如人脸分类,车辆分类等,这些都是同一类别内部不同样本的分类。

2.Arcsoftmaxloss

Arc-SoftmaxLoss=Arc-Softmax+NLLLoss。softmax是通过角度分类的,Arc-Softmax加宽了角度间的分界线,从而达到加大类间距的目的。

技术思想及原理分析

Arcsoftmaxloss又称arcfaceloss,是专门为人脸识别分类而设计的一种损失函数,其之前的版本有A-softmaxloss、L-softmaxloss、AM-softmaxloss。和centerloss不同的是,arcsoftmaxloss是直接对softmaxloss进行改进,通过增加不同类别之间的角度距离来使不同类别获得更好的分类效果。两者都是减小同一类别中边缘的样本点与中心样本点的距离,只是使用了不同的方法,centerloss采用的直接是欧式距离的做法,在同一类别下的所有样本点之间计算距离,这使得硬件资源的开销过大,不适合超大样本的分类计算;而arcsoftmaxloss不对单个样本点进行计算,采用的是对每两个类别的决策面进行扩压,使得两个类别的边界线越来越大,从而将每个类别内部的样本点挤压到了一起,达到了精细化分类的效果,在计算效率远远大于centerloss。

应用场景及商业价值

虽然Arcsoftmaxloss和centerloss的的技术实现方法不一样,但是目的都是一样的,都是为了更精细化的分类。二者的应用场景也是一样的,主要应用方向是对与同一类别下的实例目标进行分类识别。人脸做为每个人的身份信息,其商业价值是非常巨大的,比如商家识别了客户脸部信息,建立准确的客户信息表,下次就可以针对性的销售。

三、对象生成

1.AutoEncoder

1986年Rumelhart提出自动编码器的概念,并将其用于高维复杂数据处理,促进了神经网络的发展。自编码神经网络是一种无监督学习算法,它使用了反向传播算法,并让目标值等于输入值,比如y(i)=x(i)。下图是一个自编码神经网络的示例:

技术思想及原理分析

AE模型(AutoEncoder)就是自编码模型,自编码的工作是让输入数据自己给自己编码,简单来说就是让输出等于输入!那么为什么要这么做呢?有必要让输出等于输入吗?如果输入是一张图片,那么直接复制一张图片作为输出不就行了吗?为什么要费尽心思让输出数据和输入数据一样呢?其实自编码的优点就体现于此,我们先来看看自编码的结构:

通过上面这张图,我们发现自编码是先把输入数据进行压缩成特征精髓,然后再对压缩过后的特征精髓进行解压缩还原,这是不是和我们的文件压缩和解压缩非常相似,其实二者原理是一样的,只不过文件压缩是无损压缩,而自编码模型对输入数据进行的是有损压缩,可以理解为自编码模型在压缩过程中,丢掉了部分不重要的特征,最终留下的是主要特征。在解压缩的时候,通过网络的学习,再去还原丢掉的那部分不重要的特征信息。由于神经网络是一个函数模拟器,最终网络是会学到一些特征,但是和丢掉的那部分特征又不完全一样,这就造成了网络输出的数据和输入数据很相似,但又不是完全一样的数据。

应用场景及商业价值

上面说了很多自编码的原理和过程,发现自编码虽然是尽量让输出等于输入,但是由于神经网络的极限逼近问题,其实最终得到的输出数据是和原输入非常接近但又不相同的数据,这正是自编码的目的,只有这样才能造成数据的多样性,通过自编码的这种多样性可以用来生成样本,扩大有效样本的数据量。自编码通过不同的变种可以做不同的事情,比如通过降噪自编码对图像进行去噪处理,可以得到一张更加清晰的图像。有的时候也可以通过自编码做一些比较有趣的小案例。

上图是对手写数字增加噪声后,使用降噪自编码得到的输出结果。可以看到降噪后输出的结果和原数据之间,除了在细节上展现出了不同之处,其数字基本是一致的。

2.VAE

VAE(Variationalauto-encoder),变分编码器是自动编码器的升级版本,其结构跟自动编码器是类似的,也由编码器和解码器构成。

技术思想及原理分析

VAE是在AE(AutoEncoder)的基础上对输入的原数据的分布进行轻微扰动,使其产生多样性。具体做法就是让模型学习原数据的统计值μ和σ为标准正态分布的μ和σ,而不是学习数据本身,然后再从标准正态分布进行采样获得具体的数据值,最后将统计量和具体数据值结合,形成新的数据通过一个生成器学习原数据的分布。

应用场景及商业价值

VAE的应用场景主要体现在生成类方面,比如生成新的图像数据等,和AE模型相比,VAE由于加入了新的标准正态分布数据,使得生成数据更具多样性。下图展示了VAE对手写数字生成的一个效果。从图上可以看出,通过对输入数据的分布进行一定的扰动,得到的生成数据会发生一定变化,有的数据甚至改变了值。

3.GAN系列

GenerativeAdversarialNetwork,就是大家耳熟能详的GAN,由IanGoodfellow首先提出,在这两年更是深度学习中最热门的东西。所谓生成(generation),就是模型通过学习一些数据,然后生成类似的数据。比方说让机器看一些动物图片,然后自己来产生动物的图片。

技术思想及原理分析

生成式对抗神经网络GAN(GenerativeAdversarialNetworks)是另一种非常有意思的生成类模型,和VAE不一样的是,GAN是通过一个判别器和生成器之间的模仿游戏来完成数据的生成的,其损失函数就是一个交叉熵,没有VAE的损失设计那么复杂,原理也更简单。而VAE是通过调整原数据的分布来生成新的数据的。相比较而言,GAN是直接学习原始数据的每部分特征分布,然后再组合每部分的分布数据合成的一张新图。由于直接学习数据本身的分布,训练好的GAN输出的图像更加清晰,细节部分表现更好,而VAE是对分布的方差进行一定扰动,也就是改变了细节,VAE更加关注全局,生成的图像细节没有GAN那么好。

应用场景及商业价值

GAN的应用比VAE更加广泛,GAN应用到一些场景上,比如图像风格迁移,超分辨率,图像补全,去噪,避免了损失函数设计的困难,只要有一个的基准,直接加上判别器,剩下的就交给对抗训练了。由于GAN的变种非常多,比如CGAN、DCGAN、WGAN等,以及近两年的高清图像生成模型StyleGAN等,所以基本上能看到的一些生成类模型都以GAN为主。

四、物体分割

1.FCN

FCN(FullyConvolutionalNetworks)是深度学习应用在图像分割的代表作,是一种端到端(endtoend)的图像分割方法。因为FCN网络中所有的层都是卷积层,故称为全卷积网络。

技术思想及原理分析

FCN顾名思义,即全卷积网络,做为使用深度学习做图像分割的先例,其象征意义更大于实际意义。FCN的主要特点是整个网络全部是由卷积网络构成的,不包括全连接。另外FCN采用的结构是以编解码网络为主干的瓶颈结构,加上了各层级之间的跳跃链接来获取局部细节信息。但由于模型设计简单,下采样部分和上采用部分并不对等,其分割效果并不理想。

应用场景及商业价值

分割类模型的应用场景比较广泛,目前最常见的应用范围涉及医疗影像分割、交通道路分割、GIS地理单位分割等领域。FCN是最早使用编解码瓶颈结构加跳跃连接来实现像素级分割的神经网络模型,虽然效果并不理想,但是对后来这一类模型的发展提供了可参考的价值,在后面的很多分割模型当中都可以看到FCN的影子。下图是FCN在不同的跳跃连接和步长下的分割效果,很明显,跳跃连接更多的分割也更精准一些。

2.UNet系列

Unet是一种比较年轻的神经网络,顾名思义,其结构为U形,在卷积层一层一层提取特征的同时将首尾对称的两层联系起来。

技术思想及原理分析

UNet可以看作是对FCN的一种优化,在FCN之后的很多基于神经网络的分割模型都可以看到FCN的影子,而UNet就是其中一个。UNet和FCN比起来,首先在模型结构上做到了完全对称,下采样部分的参数结构和上采用部分的参数结构几乎保持一致。另外在每个对应的下采样和上采样之间都使用了跳跃连接来增强细节信息的捕捉。在FCN中的add被改成了concatenate,让通道上的特征信息更加丰富。

应用场景及商业价值

由于UNet的分割效果更好,基于UNet的实际分割应用也更加广泛,UNet最早被设计出来的时候,就是为了做医学影像分割的。下图是UNet对眼球毛细血管的分割效果图,可以看出UNet对图像细节的分割效果是非常好的。

除了UNet之外,在UNet家族中还有UNet++,UNet3+,U²Net等等,其效果都要比原始的UNet更强。下面是N²Net的分割效果。可以看出U²Net的分割效果也是非常出色的。

3.DeepLab系列

DeepLab在图像分割领域中是另一个系列,目前已经有DeepLabv1、DeepLabv2、DeepLabv3和DeepLabv3+等版本。

技术思想及原理分析

和UNet系列比起来,主要差别是在对输入图像的处理和网络的结构上。DeepLab主要使用了图像金字塔、空洞卷积、SPP空间金字塔池化、可分离卷积等方法来提高分割的效果。其v1版本的网络比较简单,是在vgg16的基础上改动得到的,测试时使用全连接条件随机场(FullyConnectedCRF)来提高分割精度。DeepLab通过空洞卷积获得图像特征金字塔来提取不同细节层次的信息,然后综合信息上采样还原图像,在上采样过程中,同样使用了跳跃连接来增强细节信息。

应用场景及商业价值

DeepLab的应用同UNet一样,都适合分割场景任务。

4.MaskR-CNN

MaskR-CNN是一个小巧、灵活的通用对象实例分割框架(objectinstancesegmentation)。它不仅可对图像中的目标进行检测,还可以对每一个目标给出一个高质量的分割结果。

技术思想及原理分析

MaskRcnn是大神何凯明之作,集检测、分类、分割为一体的大模型。看名字就知道和Rcnn系列有一定联系,其实MaskRcnn就是在Rcnn的基础上增加了一个类似UNet的分割模型,Rcnn本来是做检测和分类的,MaskRcnn就是其基础上增加了一个分割功能。虽然MaskRcnn功能全面,但是不一定适合所有的场景,比如有的时候,你可能只需要做分割,仅此而已,这时候选择什么模型就需要认真思考了,不然参数过于冗余的模型会降低效率,而多余的功能对当前的任务可能并没有必要。

应用场景及商业价值

MaskRcnn融合了检测、分类、分割三种功能,其使用场景更多一些。比如一些需要对不同类别的实体进行分割分类的任务。

关注微信公众号:深度人工智能学院,获取更多人工智能方面的知识!

        

        官方公众号                          官方微信号

 

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇