从7个方面看人工智能的失败
神经网络可能极其脆弱、易忘,且在数学方面出人意料地表现糟糕。
从检测癌症到决定谁接受岗位面试,人工智能系统在很多问题上都能做得比人类更快、更准确、更可靠、更公正。不过人工智能也经历了无数次失败,有时甚至是致命的失败。人工智能的日益普及也意味着失败不仅会影响个人,还会影响数百万人。
人工智能界正在越来越多地记录这些失败,以监控它们可能带来的风险。“帮助用户了解这些系统的工作原理及其意义的信息往往很少。”人工智能、算法和自动化事件与争议存储库的创始人查理•鲍纳尔(CharliePownall)说,“我认为这直接影响了人们对这些系统的信任和信心。导致各组织机构不愿意深入了解人工智能事件或争议中到底发生了什么的原因可能有很多,而不仅仅是潜在的法律风险,但如果从可信的角度来看,这样做对他们最有利。”
部分问题在于,驱动许多人工智能系统的神经网络技术可能会以某种方式崩溃,这对研究人员来说仍然是个谜。加州大学伯克利分校的计算机科学家丹•亨德里克斯(DanHendrycks)说:“人工智能擅长解决哪些问题尚不可预知,因为我们还不太了解智能本身。”
以下是7个人工智能失败的例子,以及它们揭示了当前人工智能的哪些弱点。科学家们正在讨论解决其中一些问题的可能方法;其他问题目前尚无法解释,或者从哲学角度讲,可能完全缺乏任何结论性解决方案。
1
脆弱性
拍一张校车的照片,然后翻转照片使其侧面着地,就像在现实世界发生事故时那样。2018年的一项研究发现,在通常能够正确识别正面朝上的校车的最先进的人工智能系统中,平均有97%的系统无法识别出旋转后的校车。
阿拉巴马州奥本大学的计算机科学家阮安(AnhNguyen,音)说:“它们会信心十足地说校车是一辆扫雪车。”他说,人工智能无法完成“甚至我3岁的儿子也能完成的”心理旋转任务。
这种失败就是一个脆弱性例子。人工智能通常“只能识别它以前见过的模式”,阮安说。“如果向它展示一种新模式,它就很容易上当。”
恼人的人工智能脆弱性案例很多。将贴纸贴在停车标志上会使人工智能误读。改变图像上的一个像素就能让人工智能将马认作青蛙。99.99%的神经网络会确信多色静电是一张狮子的图像。以肉眼无法察觉的方式修改医学图像后,人工智能系统会100%地误诊为癌症。诸如此类。
亨德里克斯说,有一种方法可能会让人工智能更强大地应对此类失败,那就是让它们尽可能多地暴露在令人困惑的“对抗性”例子中。然而,它们仍可能在罕见的“黑天鹅”事件中失败。“新冠病毒或经济衰退这样的黑天鹅问题,即使是人类也很难解决,这可能不是机器学习特有的问题。”他指出。
2
固有偏见
人工智能越来越多地被用于支持重大决策,例如谁能获得贷款、刑期长短以及谁先获得医疗卫生服务。人们希望人工智能能够比人类更加公正地做出决策,但许多研究发现,如果训练这些人工智能所使用的数据存在偏见,那么可能会导致集体自动歧视,给社会带来巨大风险。
例如,2019年,科学家发现美国在全国部署的一个医疗算法中存在种族偏见,影响了数百万美国人。该人工智能的设计初衷是确定哪些患者能享受重症监护计划带来的益处,但它却常规地将更健康的白人患者纳入此类计划,让他们排在了病情更严重的黑人患者前面。
加州大学伯克利分校的研究人员齐亚德•奥博迈尔(ZiadObermeyer)是一名医生,他和同事发现,该算法错误地认为医疗费用高的人是病得最重、最需要照顾的人。然而,由于系统的种族歧视,“黑人患者在需要医疗卫生服务时更不太可能得到服务,因此也不太可能产生费用,”他解释道。
在与软件开发人员合作后,奥博迈尔及其同事帮助设计了一种新的算法,通过分析其他变量,减少了84%的偏见。他说:“还需要做更多工作,但要打败偏见并非不可能。”他们最近撰写了一份指南,概述了政府、企业和其他组织可以实施的一些基本步骤,以发现和防止其当前和未来使用的软件中存在偏见。相关步骤包括:识别其使用的所有算法、了解该软件的理想目标及其在实现目标方面的表现、必要时对人工智能进行再训练,以及建立一个高级监督机构。
3
灾难性遗忘
深度伪造(deepfake)是指人工生成高度真实的虚假图像和视频(通常有关名人、政客和其他公众人物),这种情况在互联网和社交媒体上越来越普遍,它们能够欺骗性地描绘人们说了或做了并未真正发生过的事情,从而造成巨大伤害。为了开发出能够识别深度伪造的人工智能,韩国成均馆大学的计算机科学家沙罗兹•塔里克(ShahrozTariq)及其同事创建了一个网站,人们可以上传图像来检查图像的真实性。
起初,研究人员训练了他们的神经网络来识别一种深度伪造。然而,几个月后又出现了许多新型的深度伪造,在他们训练人工智能来识别这些新型深度伪造时,人工智能很快就忘记了如何识别旧的深度伪造。
这是一个灾难性遗忘的例子,人工智能可能会在学习新信息后突然完全忘记以前知道的信息,基本上是用新知识覆盖过去的知识。“人工神经网络的记忆力很差。”塔里克说。
人工智能研究人员正在寻找各种策略来防止灾难性遗忘,这样神经网络就可以像人类一样,毫不费力地持续学习。有一种简单的技术,那就是为每一个新任务创建一个专门的神经网络,例如,把猫与狗或苹果与橘子区分开来,“但这显然是不可扩展的,因为网络的数量会随着任务的数量而线性增加。”英格兰牛津大学的机器学习研究员萨姆•凯斯勒(SamKessler)说。
在训练其人工智能识别新型深度伪造时,塔里克及其同事探索了另一种方法,即向它提供少量关于它是如何识别旧类型深度伪造的数据,这样它就不会忘记如何识别它们了。塔里克说,这实际上就像考试前复习课本的章节小结一样。
然而,人工智能也许并不是总能获得过去的知识,比如,处理医疗记录等私人信息时。塔里克及同事希望能制造一种不依赖先前任务数据的人工智能。他们让它自己训练如何发现新型深度伪造,同时也从另一个人工智能那里学习如何识别旧类型的深度伪造。他们发现,在识别社交媒体上经常分享的低质量深度伪造方面,这种“知识精炼”策略的准确率约为87%。
4
可解释性
为什么人工智能会怀疑某个人可能是罪犯或患有癌症?对这类以及其他高风险预测的解释会产生许多法律、医学和其他后果。长期以来,人工智能是如何得出结论的一直仿佛是一个神秘的黑匣子,许多人都试图解释人工智能的内部运作方式。“然而,我最近的研究表明,可解释性领域有点陷入僵局。”奥本大学的阮安说。
阮安及其同事研究了研究人员为解释人工智决策(例如,是什么决定了火柴棍的图像是火柴棍,是火焰还是木棍?)而开发的7种不同技术。他们发现这些方法有许多都“非常不稳定”。阮安说:“它们每次都能给你不同的解释。”
此外,虽然一种归因方法可能适用于一组神经网络,“但它可能在另一组神经网络上完全失败。”阮安补充道。他说,可解释性的未来可能需要为正确解释建立数据库。然后,归因方法可以进入这些知识库,“并搜索可能解释决策依据的事实。”他说。
5
量化不确定性
2016年,在佛罗里达州北部,一辆开启了自动驾驶系统的特斯拉ModelS汽车与其前方一辆左转的卡车相撞,导致驾驶员死亡,这是报告的第一个与自动驾驶系统有关的死亡案例。特斯拉的官方日志表明,无论是自动驾驶系统还是驾驶员“都没有在明亮的天空下注意到货运卡车白色的一侧,因此没有踩刹车。”
有一个办法也许能帮助特斯拉、优步和其他公司避免此类灾难,即提高其汽车在计算和处理不确定性方面的表现。目前,人工智能“非常确信,即便它们大错特错”,牛津大学的凯斯勒说。如果算法做出了一个决定,“我们应该充分地了解它对这个决定有多大信心,特别是对于医疗诊断或自动驾驶汽车来说,如果它非常不确定,那么人类可以介入并给出(他们)自己对形势的判断或评估。”
例如,澳大利亚迪肯大学的计算机科学家穆卢德•阿卜杜尔(MoloudAbdar)及其同事在人工智能将皮肤癌图像归为恶性或良性,或者黑色素瘤或非黑色素瘤时,应用了几种不同的不确定性量化技术。研究人员发现,这些方法有助于防止人工智能做出过于自信的诊断。
自动驾驶汽车在量化不确定性方面依然存在挑战,因为目前的不确定性量化技术通常比较耗时,“而汽车无法等待,”阿卜杜尔说,“我们需要更快的办法。”
6
常识
南加州大学计算机科学家任翔(XiangRen,音)说,人工智能缺乏常识,即根据人们通常认为理所当然的广泛日常知识背景,得出可接受的合理结论的能力。他说:“如果不充分重视这些模型的实际学习内容,那么它们就会学习一些导致其发生故障的捷径。”
例如,科学家可能会用仇恨言论异常多的地方的数据来训练人工智能识别仇恨言论,比如白人至上主义论坛。然而,当这个软件暴露在现实世界中时,它可能认识不到黑人和同性恋者可能比其他群体更经常地使用“黑人”和“同性恋”这两个词。“即使一个帖子引用了一篇不带任何感情色彩提到犹太人、黑人或同性恋的新闻文章,它也可能被错误地归为仇恨言论。”任翔说。相比之下,“当一个形容词被用在仇恨语境时,人类通读整个句子就能识别出来。”
此前的研究表明,最先进的人工智能能够以高达90%左右的准确率得出关于世界的逻辑推断,这表明它们正在常识方面取得进步。然而,在测试这些模型时,任翔及其同事发现,即使是最好的人工智能,生成逻辑连贯的句子的准确率也不到32%。当谈到发展常识能力时,他说:“最近我们人工智能界非常关心的一件事是,利用更全面的检查表来从多个维度查看模型的行为。”
7
数学
虽然传统计算机很擅长处理数字,但人工智能“在数学方面却出人意料地糟糕”,加州大学伯克利分校的亨德里克斯说。“你的模型可能是最新、最强大的,能使用数百个GPU来训练,但它们仍然不如袖珍计算器可靠。”
例如,亨德里克斯及其同事用数十万个数学问题训练了人工智能,并给出逐步解答。然而,在用1.25万道高中数学竞赛题测试时,“它的准确率只有5%左右。”他说。相比之下,一位3次获得国际数学奥林匹克比赛金牌的选手“在没有计算器的情况下”解答这些问题的准确率达90%。
如今的神经网络可以学会解决几乎每一种问题,“只要你给它足够的数据和足够的资源,但数学问题不行。”亨德里克斯说。他表示,科学中的许多问题都需要大量的数学知识,因此目前人工智能的这一弱点可能会限制它在科学研究中的应用。
目前尚不清楚为什么人工智能在数学方面表现不佳。有一种可能是,神经网络是像人脑一样以高度并行的方式来处理问题的,而数学问题通常需要一系列的步骤来解答,因此人工智能处理数据的方式可能不适合这类任务,“就像人类通常无法在头脑中进行大量计算一样。”亨德里克斯说。然而,人工智能在数学方面的糟糕表现“仍然是一个小众话题,这个问题没有多少吸引力”,他补充道。
作者:CharlesQ.Choi
IEEE Spectrum
《科技纵览》
官方微信公众平台
往期推荐
剔除人工智能中的偏见
制造有情感智力的人工智能
强大的人工智能推理(一):如何训练多用途机器人
什么是人工智能人工智能的应用有哪些
什么是人工智能?人工智能(ArtificialIntelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大,可以设想,未来人工智能带来的科技产品,将会是人类智慧的“容器”。
人工智能可以对人的意识、思维的信息过程的模拟。人工智能不是人的智能,但能像人那样思考、也可能超过人的智能。
人工智能的应用有哪些实际应用:机器视觉:指纹识别,人脸识别,视网膜识别,虹膜识别,掌纹识别,专家系统,智能搜索,定理证明,博弈,自动程序设计,还有航天应用等。…研究范畴…自然语言处理,知识表现,智能搜索,推理,规划,机器学习,知识获取,组合调度问题,感知问题,模式识别,逻辑程序设计,软计算,不精确和不确定的管理,人工生命,神经网络,复杂系统,遗传算法人类思维方式…应用领域…智能控制,专家系统,机器人学,语言和图像理解,遗传编程机器人工厂等
应用领域语音识别领域。除了大家已较为熟悉的科大讯飞输入法,一家叫作云知声的人工智能公司,最近开发了智能医疗语音录入系统,采用了国内面向医疗领域的智能“语音识别”技术,能实时准确地将语音转换成文本。这项应用不仅能避免复制粘贴操作,增加病历输入安全性,而且可以节省医生的时间。目前,一些医院已应用了这一技术。
金融智能投资领域。所谓智能投(资)顾(问),即利用计算机的算法优化理财资产配置。目前,国内进行智能投顾业务的企业已经超过20家,其面向的服务群体,就是那些并不十分富有、却有强烈资产配置需求的人群。
中国的BAT(百度、阿里、腾讯)都已涉足人工智能。2016年,“百度大脑”项目正式启动,致力于打造综合的人工智能平台;阿里巴巴推出了人工智能项目“ET”,未来将具备感知能力,并在交通、工业、健康等领域输出决策;腾讯已将人工智能的相关技术,应用于QQ、金融、微信业务板块。
而其他诸多企业都在开发人工智能的“对话机器人”(相当于“虚拟助理”),如微软的“小娜”、谷歌的“Allo”、苹果的Siri、百度的“度秘”等。
人工智能之殇——AI项目为何屡战屡败
全文共7008字,预计学习时长21分钟
来源:Pexels人工智能项目为何会失败?
时代在进步,科技在发展,人工智能这项先进技术已经渗透到了人力资源、供应链、多层次营销等各个领域。整体发展前景和态势似乎很不错,一片光明。
但,对于开展自己的人工智能项目,人们的态度通常喜忧参半。
一开始听到“人工智能”这个词,大家一定会觉得很棒,很神奇。的确,人工智能的“成功故事”常年在坊间流传,应用人工智能来提高销量和营业额的例子也比比皆是。因此,人们可能会认为人工智能项目成功的机会一定非常多。然而另一方面,人们却从未想过项目失败后该怎么办?如何来化解风险,避免浪费时间和金钱在某个根本不可行的项目上?诸如此类的问题还有很多,但是面对这些问题我们也并非束手无策,解决的办法还是有的。
目前,人工智能项目为何屡屡受挫?
本文将就这一问题展开讨论,探究其失败背后的原因,比如数据不足等因素。