人工智能及其患者安全问题
编译自:RobertChallen,AHRQPatientSafetyNetwork,PerspectivesonSafety,July2019
【背景】
自电子健康记录问世以来,人们便致力于运用信息技术为临床医生提供更加安全和高效的服务。事实上,人工智能(Artificialintelligence,AI)决策支持系统在医疗行业中的一些应用也有一段时间了。如今,许多基于规则的人工智能决策支持系统在临床上得以广泛使用,另有一些尚在积极开发之中。最近,人们将人工智能的研究重点放在了机器学习(MachineLearning)更新上,希望通过对过去收集的案例数据进行分析整合从而构建一个机器内部系统模型,最终应用该模型为新病人的推理诊断提供服务。由于该研究重点在近期文献中频频出现,AI几乎成了机器学习更新的代名词。
未来的机器学习系统将基于新病人的数据对进行预判性诊断,并为获取最佳临床结局制定患者管理策略。这类系统既可以定期反复训练,也可以从以往的决策中自主学习。从长远来看,自主决策系统将有望应用于诊断特定的临床问题,但这场演变也将在短期、中长期时间内引发一系列特定的安全问题,这些问题在最近的一篇综述中已被提及。然而,就在近日,美国食品药品监管局(FDA)对提供辅助诊断的机器自主学习更新系统进行了批准,因此,伴随着这些系统而来的安全问题成为了本文将要探讨的重点。
【新涌现的安全问题】
在传统的临床决策支持系统中,疾病诊断依据主要由专家们提出,且均基于循证原则。而机器学习行为取决于它在训练过程中所获得的数据,当机器学习系统现有数据不能完全匹配患者的疾病现状时,系统的准确性将受到质疑,这种现象称为分布位移(Distributionalshift)。原因可能包括训练数据的代表性不强、患者诊断不全面、或者将机器学习系统不适当地应用于不同的患者群体而该群体不在样本内。其他因素还包括不同患者的人口统计学差异、时间变化、疾病各阶段临床差异、定义黄金诊断标准的不一致以及用于扫描患者的机器本身的差异性等。临床医生应该思考这样一个问题:如果没有对整个培训过程进行深入了解,我们如何确信特定的机器自主学习决策支持系统适合特定的患者?
机器学习训练包括优化预测准确性的过程。与临床医生工作量相比,越来越多的研究声称机器诊断行为堪称超人的表现。例如,针对皮肤病分类的机器学习系统的诊断效率已被证实明显优于临床医生在一系列良性和恶性皮肤病中进行的人工测试效率,但同时,该系统相比临床医生而言更容易出现误判。这种情况下,在训练机器学习系统时必须考虑到错误情况下可能造成某些后果的严重性,同时,也必须要考虑到算法的目的,权衡由假阳性和假阴性诊断结果带来的利弊。一些算法,例如Isabel诊断支持系统中包括“不能错误诊断”这一类别,以围绕该轴重新确定诊断建议的优先级。
最近,苹果公司获FDA批准,使用智能手表来检测心房颤动的算法。对此,苹果公司也有相应的担忧:这种算法的广泛使用,特别是在那些使用苹果手表而房颤发生率很低的年轻人群中,可能会出现大量的假阳性房颤诊断而促使其进行不必要的医学检查。近期,苹果公司向美国心脏病学会提交了关于AppleWatch大规模研究的初步结果,基于目前现有数据下结论还为时尚早。但在少量已发生的心房颤动警报案例中,只有34%的使用者通过随访心电图得以证实他确实有房颤的发生。虽然指导GRADE指南发展准则很重要,但在机器学习研究中却很少考虑到:“如果一项测验不能改善患者的重要结果,无论它的准确度多高,都没有使用它的理由。”
在对心电图诊断支持系统的评估中,Tsai及其同事巧妙地证明了临床医生会受到专业系统建议的影响,甚至在其错误的指示下出现“自动化偏差”,这类偏差通常存在于航空业或车辆自动化大背景下。在有关医学和非医学背景下决策支持的综述中,针对减少该项技术的支持性证据是有限的,但更显而易见的问题是,在决策支持系统协助下受过训练的人一旦脱离了该系统的帮助,将不能实现正常工作。这个问题很严重,但并非仅局限于AI或特定的机器学习系统。很难想象在没有超声心动图的情况下能对瓣膜性心脏病进行明确诊断。不出所料,由于高准确度的检测技术越来越容易获取,听诊技巧在临床实践中变得越来越不受重视。
机器学习技术与临床工具(如床旁超声心动图)的应用存在着重要差异。机器学习系统就像人类决策者一样,他们也会不可避免地犯错,也可能像“黑匣子”一样运作而显得神秘莫测,这种情况下,人们不能评估到机器学习系统的决策过程。通常情况下,我们会假定临床医生的角色是解释机器学习系统的建议并在其出现错误时及时采取控制措施。然而,机器学习系统和相关自动化偏差会以一种非常特殊且可能自我实现的方式出现,它们的出现或会妨碍临床技能的发展和改进,而这些临床技能能起到监督作用且是保证安全实施的关键。
无论采用何种技术,最终它都可能形成由相对于AI能力弱的临床医生去监管AI系统的局面,并可能因此对患者造成伤害。这种方式下,医疗保健为其他高风险技术系统(如汽车领域和航空领域的先进自动化)提供了借鉴经验,因为即便是少数但足够引人瞩目的事故将使公众对自动化的智慧产生质疑。如果说,临床医生需要在这场设想中承担什么责任,我们认为,这样的机器并不能很好地适应医疗设备的现存定义,而需要在类似于人类决策者的监管框架内运作,无论是在合适的资历、预期的实践标准、绩效审查以及为自身错误而承担责任等各个方面。在这种情况下,AI系统需要像临床医生一样,保证不会出现差错。这将需要一个公司勇敢地站出来向世人展示他对人工智能系统的支持和信任。
【结论】
这篇文章探讨了在医学上采用机器学习系统(或称人工智能技术)可能产生的各种实际和哲学问题。但是,这些问题的严重性主要取决于AI系统在医疗领域的应用程度。败血症预测算法的实验正在进行中,其益处明确且可以在重要的结果中表达出来,并且数据的算法监测与从整体中识别患者身份的临床技能相互补充。临床医生和机器学习研究人员需要专注于寻找“简单易懂”的应用程序,以确保机器学习技术和计算机卓越的数据处理能力能安全的运用于临床。在我们看来,关键是要正确理解诊断测试在临床环境中的作用。
关于机器学习在实验室的成果表现的研究报告(由Topol及其同事总结)让临床医生们对其作用效果产生了质疑,他们怀疑这样的目标在现实环境中无法实现。一些研究集中于将机器学习系统与临床医生决策相结合,并将最终决策与无机器学习系统辅助的临床医生诊断结果进行比较,研究通过机器学习系统来提高医生疾病诊断准确性的方法。机器学习系统与临床医生的合作过程使其发展前景一片光明,并挖掘了机器自主学习作为教学和决策支持工具的巨大潜力。有机器自主学习系统辅助的医生和没有辅助的医生之间的对比,应当作为机器自主学习实验标准化设计的一部分。
【作者】
RobertChallen,MA,MBBS
EPSRCCentreforPredictiveModellinginHealthcareandDepartmentofMathematics,LivingSystemsInstitute,UniversityofExeter,Exeter,Devon,UK
TauntonandSomersetNHSFoundationTrust,Taunton,Somerset,UK
【原文】
https://psnet.ahrq.gov/perspectives/perspective/275
编译:刘 璟 重庆医科大学护理研究生
审校:肖明朝重庆医科大学附属第一医院
浅谈人工智能的伦理问题
浅谈人工智能的伦理问题
资料整理,仅供参考
引言2018 年3月 18日晚上 10 点左右,伊莱恩·赫兹伯格(ElaineHerzberg)骑着自行车穿过亚利桑那州坦佩市的一条街道,突然间被一辆自动驾驶汽车撞翻,最后不幸身亡。这是一辆无人自动驾驶汽车,尽管车上还有一位驾驶员,但车子由一个完全的自驾系统(人工智能)所控制。与其他涉及人与AI技术二者之间交互的事件一样,此事件引发了人们对人工智能中道德和法律问题的思考。系统的程序员必须履行什么道德义务来阻止其研发产品导致人类的生命受到威胁?谁对赫兹伯格的死负责?是该自动驾驶汽车公司测试部们?人工智能系统的设计者,甚至是机载传感设备的制造商?
关于人工智能的伦理讨论一直在进行,从人工智能研究的开始,重点主要集中在讨论可能性和对未来影响的理论工作,但对人工智能实际应用中研究讨论较少。尽管学术界对人工智能伦理道德的关系进行探讨已经持续了几十年,但并没有得出普遍的人工智能伦理是什么,甚至应该如何定义命名也没有统一规范化。近年来,随着社会科技技术的不断发展,人工智能的发展取得重大的突破。人工智能相关伦理研究讨论日益广泛,影响着我们的生活。在当前AI伦理受到越来越多讨论研究的背景下,本文主要通过对一些案例分析人工智能的伦理问题,结合本学期《工程伦理》课程所学,谈谈自己的理解与收获。
人工智能及其案例讨论分析“人工智能”被设计为一种为从环境中获取因素的系统,并基于这些外界的输入来解决问题,评估风险,做出预测并采取行动。在功能强大的计算机和大数据时代之前,这种系统是由人类通过一定的编程及结合特定规则实现,随着科学技术的不断进步,新的方法不断出现。其中之一是机器学习,这是目前AI最活跃最热门的领域。应用统计学的方法,允许系统从数据中“学习”并做出决策。关注技术的进步,我们更关注的是在极端情况下的伦理问题。例如在一些致命的军事无人机中使用AI技术,或者是AI技术可能导致全球金融体系崩溃的风险等。
对大量的数据进行汇总分析,我们可以利用AI技术帮助分析贷款申请人的信誉,决定是否给予贷款以及额度,同时也可以对应聘者进行评估,决定是否录取,还可以预测犯罪分子再次犯罪的几率等等。这些技术变革已经深刻影响着社会,改变着人们生活。但是,此类技术应用也会引发一些令人困扰的道德伦理问题,由于AI系统会增强他们从现实世界数据中学到的知识,甚至会放大对种族和性别偏见。因此,当遇到不熟悉的场景时,系统也会做出错误的判断。而且,由于许多这样的系统都是“黑匣子”,人们往往很难理解系统做出判断的内在原因,因此难以质疑或探究,给人们决策带来风险。举几个具体例子:2014年,亚马逊开发了一种招聘工具,用于识别招聘的软件工程师,结果该系统却表现出对妇女的歧视,最后该公司不得不放弃了该系统。2016年,ProPublica在对一项商业开发的系统进行了分析,该系统可预测罪犯再次犯罪的可能性,旨在帮助法官做出更好的量刑决定,结果也发现该系统对黑人有歧视偏见。在过去的两年中,自动驾驶汽车在依靠制定的规则和训练数据进行学习,然而面对陌生的场景或其系统无法识别的输入时,无法做出正确判断,从而导致致命事故。
由于这些系统被视为专有知识产权,因此该私人商业开发人员通常拒绝提供其代码以供审查。同时,技术的进步本身并不能解决AI核心的根本问题—经过深思熟虑设计的算法也必须根据特定的现实世界的输入做出决策。然而这些输入会有缺陷,并且不完善,具有不可预测性。计算机科学家比其他人更快地意识到,在设计了系统之后,不可能总是事后解决这些问题。越多人认识到道德伦理问题应该被当作在部署一个系统前所要考虑的一个问题。
对失业、不平衡问题的讨论与思考人工智能的重要的道德和伦理问题,既是社会风险的前沿,也是社会进步的前沿。我们讨论两个突出问题:失业、不平衡问题。
1.失业
几十年来,为了释放人类劳动,我们一直在制造模仿人类的机器,让机器替代我们更有效地执行日常任务。随着经济的飞速发展,自动化程度越来越高,大量新发明出现在我们生活中,使我们的生活变得更快,更轻松。当我们使用机器人替代我们人类完成任务,即让手工完成的工作变成自动化时,我们就释放了资源来创建与认知而非体力劳动有关的更复杂的角色。这就是为什么劳动力等级取决于工作是否可以自动化的原因(例如,大学教授的收入比水管工的收入还多)。麦肯锡公司最近的一份报告估计,到2030年,随着全球的自动化加速,接近8亿个工作岗位将会消失。例如,随着自动驾驶系统兴起,AI技术引发了人们对失业的忧虑,大量的卡车司机工作岗位可能受到威胁。我们人类将有史以来第一次开始在认知水平上与机器竞争。最可怕的是,它们比我们拥有更强大的能力。也有一些经济学家担心,作为人类的我们将无法适应这种社会,最终将会落后与机器。
2.不平衡
设想没有工作的未来会发生什么?目前社会的经济结构很简单:以补偿换取贡献。公司依据员工一定量的工作来支付其薪水。但是如果借助AI技术,公司可以大大减少其人力资源。因此,其总收入将流向更少的人。那些大规模使用新技术的公司,其少部分人将获得更高比例的工资,这导致贫富差距在不断扩大。在2008年,微软是唯一一家跻身全球十大最有价值公司的科技公司。苹果以39位居第二,谷歌以51位居第三。然而,到2018年,全球十大最有价值公司前五名均是美国科技公司。
当今世界,硅谷助长了“赢者通吃”的经济,一家独大的公司往往占据大部分市场份额。因此,由于难以访问数据,初创企业和规模较小的公司难以与Alphabet和Facebook之类的公司竞争(更多用户=更多数据,更多数据=更好的服务,更好的服务=更多的用户)。我们还发现一个现象,就是这些科技巨头创造的就业机会相比于市场上其他公司往往少很多。例如,1990年,底特律三大公司的市值达到650亿美元,拥有120万工人。而在2016年,硅谷三大公司的价值为1.5万亿美元,但只有190,000名员工。那么如今技能变得多余的工人将如何生存,这样趋势下去会不会引发社会暴乱,科技巨头应不应该承担更多的社会责任,这些都是值得我们思考的问题。
人工智能伦理问题建议由上文可知,缺乏对伦理的认知,会对社会及人类生活造成的一定风险,因此,为加强AI伦理因素在实际应用的正确导向作用,应从以下几个方面入手:
1.明确定义道德行为
AI研究人员和伦理学家需要将伦理价值表述为可量化的参数。换句话说,他们需要为机器提供明确的答案和决策规则,以应对其可能遇到的任何潜在的道德困境。这将要求人类在任何给定情况下就最道德的行动方针达成共识,这是一项具有挑战性但并非不可能的任务。例如,德国自动驾驶和互联驾驶道德委员会提出:建议将道德价值观编程到自动驾驶汽车中,以优先保护人类生命为重中之重。在不可避免的致命撞车事故发生时,汽车不应基于年龄,性别、身体或心理构造等个人特征来选择是否要杀死一个人。
2.众包人类道德伦理
工程师需要收集足够的关于明确道德伦理标准的数据,以适当地训练AI算法。即使在为道德价值观定义了特定的指标之后,如果没有足够的公正数据来训练模型,那么AI系统可能仍会难以取舍。获得适当的数据具有挑战性,因为道德伦理规范不能始终清晰地标准化。不同的情况需要采取不同的方针,在某些情况下可能根本没有单一的道德伦理行动方针。解决此问题的一种方法是将数百万人的道德伦理困境的潜在解决方案收集打包。例如,麻省理工学院的一个项目,其展示了如何在自动驾驶汽车的背景下使用众包数据来有效地训练机器以做出更好的道德决策。但研究结果还表明,全球道德价值观可能存在强烈的跨文化差异,在设计面向人的AI系统时也要注意考虑这一因素。
3.使AI系统更加透明
政策制定者需要实施指导方针,使关于伦理的AI决策,尤其是关于道德伦理指标和结果的决策更加透明。如果AI系统犯了错误或产生了不良后果,我们将不能接受“ 算法做到了 ”作为借口。但是我们也知道,要求完全算法透明性在技术上不是很有用。工程师在对道德价值进行编程之前应该考虑如何量化它们,以及考虑运用这些人工智能技术而产生的结果。例如,对于自动驾驶汽车,这可能意味着始终保留所有自动决策的详细日志,以确保其道德伦理责任。
结束语伦理问题的出现是工程活动发展的必然要求。以人工智能技术为基础的现代工程活动日益复杂,对自然和社会的影响越来越深刻。同时,作为工程活动中的关键角色,工程师群体在一定意义上具有改变世界的力量。正所谓“力量越大,责任也就越大”。工程师在一般的法律责任之外,还负有更重要的道德责任。作为AI领域的工程技术人员,不断创新人工智能技术的同时也要关注实际应用中的伦理道德,相信人工智能技术可以让世界变得更加美好!