博舍

浅谈大数据与人工智能的“前世今生” 大数据与人工智能的前世今生关系是什么

浅谈大数据与人工智能的“前世今生”

大数据与人工智能不仅是全球主要大国社会经济发展的重要影响因素和推动力量,也是目前引发国际关系调整与变迁的关键技术因素。中国作为快速崛起的新兴大国,已经成为全球推动和引领大数据与互联网技术、云计算与人工智能技术的重要国家。在高铁、量子通信、超级计算机、5G网络、大数据与人工智能的某些领域已经具有相当的领先优势。那么,大数据与人工智能究竟有什么纷繁复杂的“前世今生”呢?今天我们就一起打开这扇神秘的大门。

一、解密“大数据”

我们通常将大数据分为三个层次。一是容量很大的数据,比如两个仓库都堆满了很多书,甲仓库的书全是大学二年级数学教材,乙仓库的为大学各类教材及其提升学生综合能力的各类图书,两仓库都满足了“大”的要求;二是大容量且有用的数据,比如对大学教学来说,肯定上述甲仓库的书几乎没用,而乙能满足有用的要求;三是从中挖掘核心数据的强大能力,这个需要专业的技能和应用能力。所以,大数据不能简单地理解为数据多,其核心是数据挖掘。挖掘数据则要涉及到云计算。这种如云般运算的能力与强度,实际上就是考验科技与研发人员的“认知”水准。

实现数据挖掘,就是要通过对海量数据的交换、选择、整合和分析,发现新的知识,创造新的价值,带来“大知识”、“大科技”、“大利润”和“大发展”。也就是,将海量数据最大化、集约性、多头性的运用于企业、社会、生活等等的各个方面,以创造最大的价值。

现代日常生活中能通过物联网感知到的被人们称之为“大数据”的数据,主要是指人类信息交换、存储、处理三方面能力大幅提升后,人与人、人与物之间所制造的数据,而我们日常概念中的“大数据”却是很表面的数据,比如说当你挥挥手,几个简单的动作可以称之为表数据,物联网能感知;而挥手动作之下,数以亿计的宏数据却不能被感知。表数据构筑起如今的大数据概念,在此基础之上的物联网、算法与人工智能等,能量非常有限。

二、大数据与人工智能的“非凡”关系

用网络上一个很形象的解释就可以说明,如果我们把人工智能看成一个嗷嗷待哺拥有无限潜力的婴儿,某一领域专业的海量的深度的数据就是喂养这个天才的奶粉。奶粉的数量决定了婴儿是否能长大,而奶粉的质量则决定了婴儿后续的智力发育水平。人工智能概念,是60年前提出来的,而前50年其实都是默默无闻的,那为什么现在突然成为热门话题呢?就是因为人工智能有了喂养他的“灵魂”—大数据。例如有了大数据的量化分析,一个机器人都能给人类看病。我们可能只要把自己的症状告诉机器人,然后机器人会从“数据库”中找到相同或相似的病情,并给出建议去某项检查。

再比如,人工智能中的“深度学习”,曾经很老套,但如今很流行,主要是互联网信息技术的发展让搜集“大数据”由不可能变为可能,机器训练才有了足够多的信息样本。类似于阿尔法狗的棋步算法、无人驾驶、人脸识别以及网页搜索等高级应用中用到的高深莫测的“深度学习”、“增强学习”,乃至最具潜力的“对抗学习”都与大数据有关。

总结了这没么多,我们或许可以得出结论了:可以说正是得益于大数据和云计算的支持,互联网才正在向物联网扩展,并进一步升级至体验更佳、解放生产力的人工智能时代。后人工智能看来是注定要与大数据相伴终生了。

医学影像大数据与人工智能的“前世今生” 你想知道的里面都有

法国医生雷奈克用木管听诊

到了近代,医生观察病人体内的状况,不再仅仅通过听诊器来解决。1971年,CT的问世标志着医疗影像学的正式建立,随着医学成像技术的进步,由放射科演变而来的医学影像科成为临床医学中发展最为迅速的学科,从传统的X光检查扩展到超声波、放射性核素显像、X-CT、MRI、数字化成像,以及当今最高端的PET-CT技术。医生借助这些新技术,来更加深入地“窥探”人体内部的病变情况。

2.影响数据的融合大师——PACS系统

医学影像设备的出现,让医疗机构的诊疗工作越来越多依赖医学影像的检查。传统的医学影像管理方法(胶片、图片、资料)日积月累、年复一年存储保管,堆积如山,给查找和调阅带来了诸多困难,医院丢失影片和资料时有发生。传统的文件管理方式,已经无法适应现代医院中对如此大量和大范围医学影像的管理要求。

随着数据库技术和计算机通讯技术的发展,数字化影像传输和电子胶片应运而生。众多医院纷纷进行了医院信息化改革,随着影像设备逐渐更新为数字化和互联网的逐渐成熟,无胶片放射科和数字化医院成为了现实。关于电子胶片,我们将在下一篇文章里详细介绍,这里暂时先不细说。

为了对不同医学影像设备的信息化数据进行统一存储和管理,各平台数据的融合大师——PACS系统诞生了。

PACS系统英文翻译过来就是影像归档和通信系统的意思。它的主要任务是把日常产生的各种医学影像(包括核磁,CT,超声,各种X光机,各种红外仪、显微仪等设备产生的图像)通过各种接口(模拟,DICOM,网络)以数字化的方式海量保存起来,当医生需要它们的时候,便如同管家一般把数据快速调回使用,完美充当了各仪器之间的润滑剂的作用。

完整的PACS系统,主要功能由三个方面组成:一是图像的采集,二是数据的传输和存储,三是影像分析和处理。

影像的采集方式主要有三种:分别是纯数字采集、视频采集和胶片扫描。

而信息存储方面,PACS系统针对结构化数据和非结构化数据,采用了两种不同的方式来分别进行存储。使用数据库来管理病人信息等结构化数据,使用文件系统来管理图像资料等非结构化数据。就好比一个人带着行李去乘坐飞机,行李被托运进了行李舱,而人则坐在机舱内,两者各行其道、互不干扰。

此外,由于医学影像的数据文件往往较大,常规一次CT扫描为10MB量级,X光机的胸片可以到20MB,而心血管造影的图像可达80MB以上。传统的方式一般是利用服务器和光盘来进行存储,比较死板,难以进行功能扩展。而目前新兴的云计算云存储技术具有数据快速调用、网络共享与应用拓展等功能,与PACS系统相结合,将是未来影像存储的一大方向。

其原理也很简单:医院将PACS系统部署到第三方云平台,通过云平台的分布式、负载均衡的集群系统,实现全天候影像存储。云平台的建立,还可以实现跨平台、多终端、PC和移动设备的全面融合,进而彻底实现影像无纸化、无光盘化、无胶片化。

这种全新的模式,不仅提升了每一位医生的工作效率、工作质量,并且丰富了医生的协作工作场景。此外,医院也不用再去花重金购买服务器,从而减少繁琐的后期维护和扩容,以到达节省成本的目的。

OK!数据存储的问题解决了,但数据的标准化又成为了新的问题。虽然医院可以利用PACS系统来实现各类仪器之间的信息互通,但由于不同厂家的设备和不同PACS系统所使用的数据标准各不相同,让信息的采集和传递非常困难。就好比不同语言和国家的人遇到了一起,你讲你的ABC,我说我的吃了没。如何让这些不同国家、不同厂家的产品形成统一的标准,成为了最大的障碍。

这方面,美国人总是走在时代的前沿。1985年,美国放射学会ACR和美国国家电器制造商协会NEMA共同制定了一种规定数字医学影像和相关信息格式及信息交换方法的标准:医学数字成像和通信标准(digitalimagingandcommunicationsinmedicine),缩写为DICOM。DICOM的出现,重新定义了临床数据交换的医学图像格式。

在DICOM标准下,影像设备提供统一标准的影像数据给PACS系统。而对外通讯方面,PACS系统仍然使用DICOM,这样就形成了最大限度的统一。简单来说,就是让各家的仪器统一用一种接口,就好比我们将英语作为世界的通用语言。

1993年,DICOM顺利发展到了第三代,也就是DICOM3.0标准。随着越来越多国家的医疗设备厂商宣布支持DICOM3.0标准,DICOM3.0逐渐成为了全世界医疗影像行业公认的标准。

PACS系统最初主要用于放射科,作为医院HIS系统的核心组成部分,在构建进入医院信息系统网络时普遍遵循HL7标准和IHE规范。随着HL7标准和IHE规范的不断完善,PACS已经从简单的几台放射影像设备之间的图像存储与通信,扩展至医院所有影像设备乃至不同医院影像之间的相互操作,因此出现诸多分类叫法,如MiniPACS(微型PACS)、科室级PACS、全院级PACS、区域PACS等。

Mini-PACS:是指只用在单一类型的影像设备,CT或者MRI等。

科室级PACS:放射科多台影像设备可实现影像、诊断报告共享。

全院级PACS:将全院各科室临床主治医师、放射科医师和专科医师以及各种影像、医嘱和诊断报告联成一网。

区域PACS:本地区、跨地区广域网的PACS网络。

Mini-PACS:是指只用在单一类型的影像设备,CT或者MRI等。

科室级PACS:放射科多台影像设备可实现影像、诊断报告共享。

全院级PACS:将全院各科室临床主治医师、放射科医师和专科医师以及各种影像、医嘱和诊断报告联成一网。

区域PACS:本地区、跨地区广域网的PACS网络。

总之,PACS系统的出现,既解决了图像的采集问题,又解决了数据的传输和存储问题,至于尚未提到的影像的分析和处理,我们在后面来详细说明,在此之前,先来了解下医学影像大数据。

3.我国医学影像大数据的形成原因

作为一个新名词,到底是先有医学影像大数据,还是先有医疗大数据,现在已经无从考证了。但要解释医学影像大数据,必然要搞清楚两点:一是医学影像大数据的定义,二是医学影像大数据的形成原因。

大数据的定义,是无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

IBM则总结了大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性)。

医学影像大数据,如果按照大数据的定义,是由DR、CT、MR等医学影像设备产生所产生并存储在PACS系统内的大规模、高增速、多结构、高价值和真实准确的影像数据集合。与医院信息系统(HIS)大数据、检验信息系统(LIS)大数据和电子病历(EMR)等同属于医疗大数据的范畴。

多结构和高价值这两点很好理解,是由日益增长的医疗影像设备种类所产生的具有医学分析和指导价值的结构化和非结构化数据。大规模和高增速,则需要从大环境来解释。

我国医学影像大数据的形成,主要有两方面的原因:一是市场,二是人口。

从市场规模来看,截止2015年6月,我国三甲医院数量为705家;CHIMA2014-2015年的数据显示,我国科室级PACS、多科室或院级PACE系统建设水平已经分别达到了60-70%和50-60%,基本覆盖国内一线城市的三甲医院。

从市场增速来看,我国PACS市场年均增速在25%以上。根据ACMR的调查数据,2012-2015年,中国PACS市场继续以20%以上的增速扩大。

而人口方面,影响医疗影像大数据的形成原因主要是人口基数和年龄的分布。据国家统计局第六次全国人口普查主要数据公报,全国总人口数约为13.7亿。从老年人口的增速和比例上看,截至2014年底,我国60岁以上老年人口已经达到2.12亿,占总人口的15.5%。据预测,到本世纪中叶,我国老年人口数量将达到峰值,超过4亿,届时每3个人中就会有一个老年人。

所以,目前PACS系统的普及率和人口数量的庞大,是我国医学影像大数据的大规模基础;而PACS系统和老龄人口的快速增长率是医学影像大数据的高增速的基础,这两者共同构成了我国医学影像大数据的形成原因。

作为大数据5V特征中的最后一环,医学影像大数据的真实性,应该通过何种方式去实现?这就要涉及到数据处理技术了。

4.数据处理和“鱼香肉丝”

简单来说,PACS系统从不同的影像设备收集到的数据在质量上往往参差不齐。而数据分析和输出结果的错误程度和可信度在很大程度上取决于收集到的数据质量的高低,所谓“垃圾进,垃圾出”,没有数据的准确性保证,大数据分析就变成了一纸空谈。

目前医学影像后处理方法主要包括两类,一类是直接处理技术口,对患者进行影像学检查后,直接采用软件技术对影像在影像设备上进行处理,例如在CT和MRI设备上进行血管成像等。这种方式的缺点比较明显,不能对影像进行改变,只能依靠医生依据自身的经验进行病理学处理,这就导致了数据结果的不准确性。

举个例子来说,当CT图像遇到相互组织成像重叠时,普通的软件图像处理往往会将这些重叠的数据理解为噪声或者其它干扰信号,而医疗专家则需要保持图像上面边界或者目标轮廓的边界具有的几何保持纺射不变(简单来说就是保持图像的完整性),这就对医生的诊断带来了难以预料的困难。

除了影像设备软件处理外,还有一种方法,通过影像设备将影像数据传递给PACS系统,由PACS系统来对影像进行后处理。比如PACS系统通过多维影像融合(CT/MRI/PET-CT)技术,来对图像进行分割、配准和聚类,从而尽可能保存影像数据的真实性。

多维影像融合这项“黑科技”主要包括数据预处理、图像分割、特征提取以及匹配判断这几个过程。听上去可能让人感到有些懵逼,简单来说:数据预处理是指医学影像数据库中含有海量的、不同来源的原始数据,其中带有大量模糊的、不完整的、带有噪声和冗余的信息。因此在数据挖掘前,必须对这些信息进行清理和过滤,以确保数据的一致性和确定性,将其变成适合挖掘的形式。

我们很清楚,医学影像数据库里包含大量的图像数据。为了便于说明,我们把这些图像数据比作各种食材,将最终处理完成的信息比作鱼香肉丝这道菜。

数据预处理,可以把它想象成清洗食材的过程,要做鱼香肉丝这道菜,你得先把猪肉、胡萝卜、青椒乃至于葱姜蒜都一一洗净,滤掉残渣,留下精华,才能做接下来的步骤。这个阶段,包括图像去噪、增强、平滑、锐化等工作,统称为数据预处理。

“食材”清洗完毕后,就进入到图像分割和特征提取环节,这个环节我们可以假设为“食材”的切丝切段的过程。以国内知名医学影像公司汇医慧影为例,利用多维影像融合技术,通过器官形态模型,图像边缘特征模型,以及神经网络聚类模型,计算机自动将盆腔CT的膀胱,前列腺,直肠等自动分割(分割精度

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇