2023人工智能深度研究:机器学习最终是否会代替人类医生
[[377208]]
我们要探讨的这篇论文,它采取的方法,绝对可以比以往任何一种方法都好。本来我想在一篇博客里讨论好几篇类似的论文,可惜每一篇论文都有很多值得人们深思的地方(这篇文章就已经占了3000字了),所以每一篇论文我将花整个篇幅去深度探讨和理解。然后我将在几周里分开讨论这些文章,于是就产生了我博客中关于医疗人工智能这个系列专题。
对于本次话题,我非常感谢LilyPeng博士,这篇论文的作者之一,他对我提出的许多问题做出了非常充分的解答。
这里先奉上一份简单的总结:
TL:DR
google(和他们的合作者)训练了一个系统,可以检测糖尿病视网膜病变(全世界5%的失明由它引起),该系统能够像一个眼科医生一样做出诊断。
这是一个有用的临床任务,它可能不会节省很多的费用,也不会在医疗自动化以后取代医生,但是它的提出有很大的人文情怀。
他们使用了13万个视网膜图像进行训练,比公开的数据集大了1到2个数量级。
他们使用阳性案例丰富了他们的训练集,在某些程度上抵消了不平衡的数据分布带来的影响。
由于大多数深度学习模型都是针对低分辨率的图像,所以原数据被下采样处理,丢弃了90%以上的像素值,然而我们无法评测这样做是否有利。
他们雇佣了一组眼科医生来对图像进行标注,可能会花费数百万美元,这样做的目的是为了使标注更准确,避免出现误判。
第5点和第6点是造成当前所有深度学习系统错误率高的原因,而且这个问题很少被谈及。
深度学习之所以比医生更有优势,是因为它们可以在各个“操作点”上运作,相同的系统可以执行高灵敏度筛选和高特异性诊断,不需要再加额外的训练。
这是一个很棒的研究内容,人们能够很容易的理解,并且在文本和补充中有很多有用的信息。
这项研究似乎符合目前FDA对510(k)批准的要求。虽然这项技术不太可能通过,但是该系统或衍生物在未来的一两年内很可能加入到临床的实践当中去。
免责声明:本文主要针对大众化的群体,包括机器学习领域的专家、医生等。相关专家们可能会觉得,我对一些概念的理解很肤浅,可是我还是希望他们能在自己研究领域之外找到更多有趣的新想法。还有一点要强调的是,如果这篇文章里有任何说错的地方,请读者告诉我,我会及时改正。
研究现状
在讨论之前,我想提醒大家,虽然从2012年开始,深度学习就逐渐发展成一种研究者经常使用的方法,但是五年之内我们并没有在医学中使用这种方法,为了安全起见,我们的医疗人员也通常比技术的发展落后一步。大家了解到这个背景以后,就可以想象到现在取得的一些成果更是令人难以置信,而且我们应该客观地认识到,人工智能对医疗的发展只是一个开始。
在论文中提出了,医疗自动化已经实现了突破性的进展,我会在本文中简单回顾一下,也适当地增加了一些有用的知识。我会进一步介绍这个研究,在介绍之前先花几分钟时间说明几个关键性的问题:
任务——这项任务是临床任务吗?如果实现自动化,在医疗实践过程中会面临多大的干扰呢?为什么选择这项特定的任务呢?
数据——如何收集和处理需要的数据?数据怎么处理才能符合医学实验和监管的要求呢?我们需要深入了解医疗人工智能对大数据的要求。
结果——人工智能将战胜医生还是打成平手?他们究竟测试了什么?我们还能有什么其他的收获吗?
结论——这个结果有多大的影响力?我们还可以进一步得到其他的结论吗?
Google的最新研究
任务:
糖尿病视网膜病是造成失明的一个重要病变,其成因是由于眼睛后部的细小血管损伤的造成的。医生可以通过观察眼睛后部的血管进行诊断,这其实是一项感知任务。
图一例如,DL系统能够学会如何识别“棉花状斑点”一样的白斑图案
他们训练了一个深度学习系统,可以完成和评估与糖尿病视网膜病变相关的几项工作,主要的成果是对一组糖尿病视网膜病变的病例进行评估,这些患者有着中度或者更严重的眼睛疾病(这组患者的治疗方式和非对照组的患者的治疗方式不同)。他们还测试了深度学习系统对其他严重的视网膜病变的识别能力,以及黄斑是否水肿的能力。
数据:
他们使用13万张视网膜图片对设计的深度学习系统进行训练,每个级别由3到7名眼科医生来投票确定,最终的结果以多数票来决定。图像是从四个地方的医院(美国EyePACS和3家印度医院)采集的可追溯的临床数据,由不同的相机拍摄出来的。
他们在两个数据集上验证了这个系统(在医学中,术语“验证”是指不参与到系统开发、训练环节的患者,与机器学习中的测试集是一个意思)。其中的一个数据集是对EyePACS数据集随机采样得到的,另一个数据集来自3家法国医院(Messidor-2)的公开数据集。第二个数据集中的所有图片是由同一个相机拍摄的。这些测试集由7-8个眼科专家进行分级,同样采用多数表决机制。
用来开发、训练的数据集中,视网膜病变的患病率占比55%,恶化率占比8%,验证数据中患者的患病率远远低于一般患者的患病率,在19.5%的患病率中,只有1.7%的严重或恶化。这样的数据集是研究者刻意设计的,训练集中有很多阳性病例(他们增加了病例,比通常发生在临床人群中更多)。
对于数据集的质量,视网膜图片的分辨率通常在1.3到350万像素之间。这些像素被缩小到299*299的分辨率,也就是0.08百万像素(整整少了94%到98%的像素!)。这是他们设计的网络结构的特性,其他大小分辨率的图像不能使用。
神经网络:
他们使用了GoogleInception-v3深度神经网络的预训练版本,这也是到目前为止使用效果最好的图像处理系统之一。预训练意味着这个网络已经拿来训练过一些非医疗的物体(例如猫和汽车的照片),然后再在这个基础上对特定的医疗图片进行训练。这也是网络只接受229*229分辨率图片输入的原因。
结果:
我认为这篇论文是深度学习在医学人工智能领域取得的第一大突破。机器与眼科医生拥有几乎相同的疾病判断能力,甚至可以与“中级”眼科医生进行较量,表现也相当不错。
图二这是所谓的ROC曲线,是判断疾病诊断系统的最佳方式之一。通过计算曲线AUC下方的面积,能够将灵敏度和特异度结合在单一的指标中。99.1%是非常好的。
彩色点是专业眼科医生的诊断结果,黑线是所训练的深度学习系统的诊断结果。正如你所看到的,如果我们将所有的彩色点连接起来,就可以得到眼科医生诊断结果的ROC曲线*,与深度学习系统的ROC曲线相似。如果你不了解ROC曲线,你可以相信我,这绝对是一个证明两种诊断结果相同的有效方式(食品药品监督管理局将同意我的看法)。
他们的系统可以很准确的检测出黄斑水肿,但在一些严重的视网膜病变方面,它的绝对值(AUC值)数据有些差距,但与眼科医生的正面比较没有说明这些。
讨论:
关于这项研究,这里有一些有趣的事情要讨论一下。
费用:他们雇用了一组眼科医生来标注他们的数据,一共有50万个标签需要去标注。如果按照正常的看病价格去支付医生,大概需要数百万美元。这笔费用比大多数创业公司的成本还要多,而且他们肯定无法接受只有一个单一数据集的标注任务。从统计的角度考虑,数据就是力量。对于医疗人工智能来说,只有金钱才能产生这么多数据。换句话说,金钱就是力量。
任务:他们能够从眼睛的照片中检测到两类以上的“可视眼病”(中度或者重度视网膜病变),甚至更严重的视网膜病变和黄斑水肿。这些都是临床上非常重要的任务。最重要的是,这些任务涵盖了大多数医生在看糖尿病患者眼睛时在做的工作。当然,这个系统检测不出罕见的视网膜黑色素瘤,但是对于日常的眼睛检查,这是一个可以很好模拟医生的系统。
数据:数据是很有趣的方面,原因有两个:质量和数量。
从他们进行的系列实验中,我们可以看出来他们需要的图片的数量。他们还用不同数量的训练样本对系统的性能进行了测试。
图三数据集中图像的数量(单位:千)
这幅图像给我们展示了一些非常有趣的东西,他们的训练集中图像的数量上限为6万例,这些图像至少在97%的灵敏度工作点。值得关注的是,这比已经公开的数据集大了一到两个数量级,如果你的实验能超过97%的灵敏度,毫无疑问你的数据需求也一定会增加。
这个结果也向我们传达了关于数据集大小的其他内容。当他们努力复制眼科医生的工作时,对常见眼科疾病的灵敏度能够达到90%,但是对于重度或者更严重的疾病的灵敏度只有84%。可能是因为识别重度疾病的任务比较困难。
另外,我还注意到“中度或者重度”疾病的训练数据是普通的3到4倍。绝对数据较少(约9500例vs34000例),而且关于流行眼病的数据也较少(9%为阳性,30%为阳性)。
机器学习需要训练分布不平衡的数据,但是不平衡的数据并不容易获得。以我的经验看来,不平衡的情况比低于30/70,机器学习会很难进行下去。这样的数据不仅使训练更加困难(较少的案例=较少的学习),并且也会让实际地诊断变得更加困难(系统在预测多类问题时会有一些干扰)。
不过,我们发现研究小组也在试图解决这个问题。在筛选人群的过程中,“参考”疾病的患病率在10%以下,所以这是一个高度不平衡的任务。因此,他们采用了额外的阳性病例以扩增训练数据集,令患病率达到30%。这样,训练结果得到了提升。并且,系统对其临床普遍性约为8%验证数据表现的较好。
但是,这种扩增较少的数据类型的方法只有在有更多的阳性案例情况下才有效,这种情况并不常发生。现在已经有了一些解决不平衡数据的方法,但是仍然没有找到一个解决不平衡数据的最佳方式。
这里还有两个关于数据质量的有趣的现象。
首先是数据的下采样。这个系统在比人类观测到的图片少98%像素点的情况下,能否观测结果和人类一样呢?我们可以肯定的说,这个系统真的可以做到。当然前提是大部分丢弃的像素必须是无用的噪声信息,否则会使深度学习系统训练的过程更加艰难。人类比计算机更善于忽视视觉噪音。
这个意义实际上更深远,因为深度学习系统已经在很多场合用来处理小型图片,但对于百万像素的大型图片**的处理,还从没有过很好的效果。实际上,高分辨率图像可能包含更多有用的信息,但是并不能适用于深度学习系统。
下采样的设想引发了一系列的问题讨论:
深度学习能对高分辨率图像有更好的训练效果吗?
低分辨率的图像是否适用于所有的医疗任务呢?
从技术的角度来看,我们是否可以在深度学习中采用高分辨率图像呢?
我不知道这些问题的答案,但是在接下来的几个星期,我们会通过阅读其他的论文来明确这些问题的答案。
关于数据的质量的第二个有趣的内容就是标注的质量问题。在机器学习中,我们需要非常准确的信息。也就是说,我们希望训练数据能够被正确的标注。比如视网膜病变的训练数据就应该是真正的视网膜病变。这些理论说起来很容易,但在实际操作中,医生们对疾病的诊断意见常常会出现分歧。所以,论文作者只是提供了数据。
你可以从这幅图中看到,对于中等或中等以上程度的疾病,有80%的概率,至少有一个医生得出了与其他人不一致的结论!所以,使用一致的标签就是为了减少可能出现的人为错误。
然而数据集中的标签错误很难避免,并且危害着模型的性能。深度学习可以学习到任何你给它的东西。反过来说,如果标注出现问题,深度学习机器很容易做出误判。
有一个达成共识的标注并不是解决这个问题的唯一方法。一些任务可能有更准确的信息,例如我们下周会看到的一篇关于皮肤病变的论文。这篇论文中的每个病变都有病理学家给出的活检证实的诊断,但是变化不大。在极端的情况下,一些任务有非常完美的标签。我自己的一个项目就在关注着一个不能被误解的标签——死亡率。
我认为标签的关键在于你能得到的和你所投入的东西成正比。如果你使用个别医生的标签,至少你能和这个医生一样优秀。如果你使用共识性的数据,你将会比其中的任何一个人更厉害。如果你完整的使用校正信息,你可能会完美地完成任务。
影响:我对作者提出将医疗机器人作为疾病筛查工具的想法表示衷心的敬佩。他们展示了机器和眼科医生一样的运行结果(假阳性率较低,但缺少一些阳性病例),同时还显示了系统优化筛选时的结果(识别几乎所有阳性病例,但还有几个假阳性)。
这些系统和医生相比有一个主要的优势:人类医生在假设的ROC曲线上有一个单一的操作点,这是基于他们经验的灵敏度和特异性的平衡,并且很难用任何可预测到的方式去改变。相比之下,深度学习系统可以在ROC曲线的任何地方运行,不需要再加额外的训练。你可以在诊断模式和筛选模式之间进行切换,而且不需要额外的费用,这种灵活性真的太酷了!在实际的临床测试中非常有用。
考虑到监管部门,这项研究已经接近于临床使用的水平。他们验证了从真实医疗中筛选的数据集的模型,并且每个案例都有多个参与者。这项称为MRMC研究,也是FDA用于计算机辅助检测系统的一般证据标准。尽管我们并不清楚这项研究和诊断系统的关系,但是如果这个系统或者类似的系统在最近两年里取得了FDA批准,我并不惊讶。
这项任务在医疗费用方面还是很可观的。眼科并不是医学的一大部分,在成本方面,眼睛检查也并不会很昂贵。
如果这个用人工智能进行眼部病变筛检的技术能得到推广,那么它人类的影响会非常大。在许多发展中国家,糖尿病病情日益严重,但是眼科专家奇缺。鉴于图像处理在低分辨率的图片上上成功率跟高,如果能将该系统与低成本且易于使用的手持式视网膜摄像机结合起来,可以挽救数百万人的生命。
然而,即使人工智能可以代替医生对视网膜病变进行评估,这对医疗工作的影响还是很局限。并且,我认为视网膜病变筛查自动会很容易导致医生工作量增加,因为以前未确诊的患者现在也需要进一步地评估和治疗。
现在我们只讨论了对视网膜病变的评估,在我们再看几篇论文以后,我们将能够探索医疗自动化轨迹的发展意义。
接下来我会看看斯坦福大学的论文,他们声称训练的深度学习系统可以实现“对皮肤癌进行分类”。
曲线上眼科医生的结果的分布让我觉得非常惊讶,因为不同的医生可能做出非常不同的预测。其中有的医生认为有0个假阳性,而其他的医生认为有10%的假阳性。这是一个很大的错误范围。
已经使用了一些解决方案,例如首先将图像进行切片操作。但这通常会大量增加负面例子的数量,加剧了数据不平衡的问题。
人工智能替代岗位
不过,这并不意味着所有医生都百分之百认同这一观点。毕竟,在整个医学发展过程中,科技在一定程度上起着举足轻重的作用。如青霉素的发明使用,推动了抗感染疾病以及感控医学的发展。“医学的每次进步都跟科技息息相关,我们号召更多的年轻医生关注科技。”朱颖强调。她指出,医学是一个严肃的事情,其诊断过程较为复杂,但大体可能分为四步:搜集病人临床信息;对病人信息进行整理和分析;基于信息的整理和分析做出初步的诊断、假设;根据搜集的信息提出检测方法,然后用该检测方法证实之前的假设,排除一些可能性低的假设,用朱颖的话说就是“用新技术来确认自己的诊断、想法。”面对普通疾病时,医生往往能快速地按照上述步骤做出诊断。不过,在面对疑难重症时,这一做法的有效性将大打折扣。朱颖举例,自己收治的一名患者,肺部长有一个0.7厘米的小结节且伴随咳嗽,多学科会诊后,放射科医生、胸外科医生、呼吸科医生分别给出了不同的治疗意见。“在这种情况下,医生面临包括该怎样告知患者下一步治疗在内的不同选择和决策,我觉得压力是非常大的。”朱颖坦言,在面对多种抉择的情况下,医生需要大数据、人工智能的支持。IBM堪称"AI+医疗“的翘楚,在医疗领域,IBMwatsoN可以再17秒内阅读本医学专著,24.8万篇论文,69种治疗方案,61540次实验数据,10.6万份临床报告。通过海量汲取医学知识,包括300多份医学期刊,200多种教科书及近1000万页文字,IBMwatson已在短时间内迅速成为肿瘤专家 随着人工智能技术的逐渐成熟,IBMWatson以肿瘤为重心,逐渐将服务半径伸向慢病管理、精准医疗、体外检测、精准医疗等九大医疗领域,逐步实现人工智能作为一种新型工具的价值。由于不同医生所见病案数量不同(数据源不完整),理解能力不一(算法不同),操作水平不定(执行误差各异),其诊疗水平(模型预测准确度)各不相同。也难怪很多基层医生愤愤不平:如果我也能像大型三甲医院的医生一样天天见这么多病人,接触这么多先进的概念方法,我也不会比这些医院的医生差到哪里去!一定程度上这是很有道理的。然而,内部资料显示,即便是大型三甲医院,其误诊率也高达30%;而地方医院则可能高达60%(置信度有待考证,不过问题是存在的)。相比于医生来说,人工智能在某些方面有明显的优势。例如其可以快速处理海量数据,具备比较完善的推理能力,不带有人类的主观性等。这些特征可以弥补医生的某些限制。所以,使用人工智能辅助医生,则成为了一件利国利民的事情。
人工智能的特点是能够处理大量数据和信息,这就需要足够的原始数据进行支持,但在医学很多领域缺少足够的原始数据。IBM沃森健康负责人PhilWu以沃森为例,谈到面对所谓经验上的东西沃森是支持的,沃森所提供的医疗方案背后都有实证支持。“面对疑难杂症,这点沃森解决不了,疑难杂症没有一个标准化,沃森无法实现学习。”
人工智能时代,教师会被彻底取代吗
不止数据统计分析,大量权威研究及名人言论都表明教师这个职业很难被人工智能替代。乔布斯也曾说出他对“计算机”在“教育”领域影响力的困惑:
那么,教师为什么会成为人工智能难以取代的职业之一呢?
教育非常特殊,它有“教”和“育”两部分内容。“教”指知识传递,教授学生已知的知识,这部分工作AI可以比人做得更好;“育”指品格培养,鼓励学生去探索未知,去发现、去创造、去爱,这部分工作很难被AI所替代。
教育不是培养流水线上的产品,无论技术如何发展,教师的言传身教、面对面的沟通交流都是育人必不可少的环节。因为面对面沟通最能解决实际问题,如果是线上沟通会存在很多难以解决的问题。就像我们平时用言语就能很快解决问题,打字或者隔空对话就是会特别麻烦。
一、教育的本质不会变
所谓,“师者,所以传道授业解惑也”,也就说明教师除了要教授学生知识外,还有更重要的使命,就是“育人”,而“育人”这件事,教师拥有着人工智能所无法替代的特质,教师是富于感情和智慧的,懂得在潜移默化中将优秀的品质融入教育。
人工智能只是替代教师的部分劳动,并不能取代教师的角色。这是因为虽然机器人也有对话、动作等交流功能,但和人类丰富细腻的感情相比差距甚远,更不用说达到教师以情育人的大爱境界了。
二、人工智能无法主观判断
如果将人工智能教育运用到实际中来,那么学生的评判肯定也就交给了机器。edX创始人阿南特·阿格瓦尔关于对学生的打分曾经做过一个有趣的实验,他在edX平台上让机器人通过人工智能技术对10万份论文进行打分,虽然速度很快,但是最终的打分结果让老师和学生都感到莫名其妙。
因为机器在识别能力上还不够完善,打分的标准非常死板,看不到学生论文中的闪光点,只是按照一些特定标准打分。所以人工智能教育想要真的应用到现实中来,怎样准确对学生做出判断还值得研究,不然还得专门配备一个师资团队去评判学生的成绩。
三、人工智能缺乏创新能力
就目前的技术而言,人工智能还没有达到可以不断创新的地步,在许多行业从事的也只是机械性的工作。虽然人工智能教育有取代教师的可能性,但是它背后还是需要模仿人类的智力行为,在人类智慧的基础上建立各种模型。
虽然也能够通过一定的方式去探索,但是没有人类的智慧模型和行为方式供它参考的话,人工智能教育还是没有任何创新的能力。并且在叙事能力上,人工智能教育也会有所欠缺,它表达的方式是整合人们日常对话形成的,对于一些套话和说话技巧,人工智能教育目前还没有办法实现。
2
未来一定是人机共教
借力科技方不被淘汰
目前的形势,不是人工智能与老师争夺饭碗,而是让老师有更多的精力去研究和细化自己的工作,从而把饭碗端得更稳更牢,甚至端出艺术感。
包括识字软件、英语口语APP、在线课堂、一对一网络教室等,在技术与数据的支持下,教师可以更为直观的获取学生的学习数据与学习能力分析报告,解放大量精力,不再把时间用于完成基本教学任务的大锅饭式教学,而是有针对性的因材施教,从教育的“初级阶段”更快的过渡到“高级阶段”。
同时,在政府的倡导下,作为个性化教育发展基础的教育信息化,近年来取得了长足进步,这也是未来不可逆的趋势。据《教育信息化“十三五”规划》统计:我国中小学的互联网接入率达到87%,多媒体教室普及率达到80%;优质数字教育资源日益丰富,信息化教学逐步普及;教师及学校管理者的信息化意识与能力显著增强。随着教育信息化应用的普及与推广,传统的教育教学模式发生了很大的改变,促进了教育公平并提高了教育教学质量。
因此,未来一定是“人机共教”的时代。教师作为一种职业不会被取代,但这并不意味着所有教师都不会被淘汰。重复性、机械性工作以后都可以交给人工智能,而教师需要不断学习,及时关注最新技术进展,掌握如何运用人工智能技术来分析教学过程中的案例和问题,更好的帮助学生们及时掌握新知识。
并且,从目前国内外教育机构启动人工智能教育的实践来看,所谓面向K12人群的人工智能教育并不是绝对意义上的人工智能课程,而是更为涉及面更广、普适性更强的计算机科学。其中,有几个严肃的问题面临解决:
第一,教育不平等问题。目前的AI专业教师人才稀缺和教材昂贵,如何保证偏远地区儿童的AI教育公平是一个难题。
第二,专业化和标准化问题。在美国,少儿STEAM教育和计算机教育正在快速接近标准化,比如美国成立了CSTA。而国内虽然已经引入了STEAM教育,但是目前仍然缺乏相关的标准以及规则,如何防止教育企业内的乱象,同时保证相关教育人员的专业素质,同样是一个亟待解决的问题。
第三,教育产品问题。目前我国的AI教育大部分还停留在理论阶段,尤其是中小学教育,几乎很少有专门面向教育的编程产品,大部分老师也只是按部就班的进行一些理论教育,学生本身参与甚少,实践内容也大多是演示,对于人工智能这样实践为主的学科,这样的教育方式似乎很难培养出能够真正的“人才”。
因此,了解到了这一点,广大教师应做的,不是抵制技术,也最好不是以逸待劳的顺应技术,主动拥抱、甚至引导技术才是我们最应该做的。
面对人工智能的挑战,教师应该主动适应信息技术变革,认真反思、评估那些“机器无而人类有”的能力,从而有针对性地改进教育教学方式。唯有如此,才能将人工智能带来的挑战转变为传统教育的机遇。教师也可以利用人工智能、大数据等技术优势,帮助学生的个性化学习设计科学的、合适的学习方案。人工智能、大数据,还可以作为教师的有力助手。
----------返回搜狐,查看更多