如何确保人工智能和机器学习项目的安全性
人工智能和机器学习在带来好处的同时也带来了新的漏洞。本文叙述了几家公司将风险降至很低的方法。
[[343401]]
当企业采用新技术时,安全性往往被放在次要位置,以最低的成本尽快将新产品或服务提供给客户似乎更为重要。
人工智能(AI)和机器学习(ML)提供了与早期技术进步相同的漏洞和错误配置的机会,而且还有其特有的风险。随着企业开始进行以人工智能驱动的数字化转型,这些风险可能会变得更大。博思艾伦汉密尔顿公司(BoozAllenHamilton)的首席科学家爱德华•拉夫(EdwardRaff)表示:“不要仓促地进入这个领域。”
与其他技术相比,人工智能和机器学习需要更多的数据,也需要更复杂的数据。数学家和数据科学家开发的算法来自研究项目。拉夫表示,在科学界,直到最近才开始认识到人工智能存在安全问题。
云平台通常要处理大量的工作负载,从而增加了另一个级别的复杂性和脆弱性。毫不奇怪,网络安全是人工智能采用者最令人担忧的风险。德勤上月公布的一项调查显示,62%的采纳者认为网络安全风险是主要的担忧,但只有39%的人表示他们准备应对这些风险。
让问题变得更加复杂的是,网络安全是人工智能使用的首要功能之一。德勤技术、媒体和电信中心的执行董事杰夫•洛克斯(JeffLoucks)表示,企业在人工智能方面的经验越丰富,他们就越担心网络安全风险。
此外,即使是经验更丰富的企业,也没有遵循基本的安全做法,例如对所有AI和ML项目进行完整的审计和测试。Loucks表示,公司目前在实施这些方面做得不是很好。
AI和ML对数据的需求带来了风险
AI和ML系统需要三组数据:
训练数据以建立预测模型测试数据以评估模型的运行情况当模型投入使用时运营数据虽然实时交易或运营数据显然是一项有价值的企业资产,但很容易忽略也包含敏感信息的训练和测试数据池。
许多用于保护其他系统中的数据的原则可以应用于AI和ML项目,包括匿名化、令牌化和加密。第一步是询问是否需要数据。在准备AI和ML项目时,收集所有可能的数据,然后看看可以做些什么。
关注业务成果可以帮助企业将收集的数据限制在所需的范围内。为教育机构分析学生数据的Othot公司的首席技术官约翰•阿巴蒂科(JohnAbbatico)表示,数据科学团队非常渴望数据,他们在处理学生数据时明确表示,高度敏感的PII(个人身份信息)不是必需的,也永远不应该包含在提供给他们团队的数据中。
当然,错误是会发生的。例如,客户有时会提供敏感的个人信息,如社会保险号。这些信息不会提高模型的性能,但会带来额外的风险。阿巴蒂科表示,他的团队已经制定了一套程序来识别PII,将其从所有系统中清除,并将错误通知客户。
人工智能系统还需要情景数据,这可能会极大地扩大公司的暴露风险。假设一家保险公司想要更好地掌握客户的驾驶习惯,它可以购买购物、驾驶、位置和其他数据集,这些数据集可以很容易地交叉关联并与客户账户匹配。这种新的、呈指数级增长的数据集对黑客更具吸引力,如果被攻破,对公司的声誉也会造成更大的破坏。
人工智能的安全设计
有很多数据需要保护的一家公司是在线文件共享平台Box。Box使用AI提取元数据,并提高搜索、分类等能力。Box的CISO拉克希米•汉斯帕尔(LakshmiHanspal)表示,Box可以从合同中提取条款、续订和定价信息。Box的大多数客户内容分类要么是用户定义的分类,要么是被完全忽视。他们坐在堆积如山的数据上,这些数据可能对数字化转型有用。
汉斯帕尔说,保护数据是Box的一个重要事项,同样的数据保护标准也适用于人工智能系统,包括训练数据。Box建立信任并保持信任。
这意味着所有系统,包括新的人工智能项目,都是围绕核心数据安全原则构建的,包括加密、日志记录、监控、身份验证和访问控制。汉斯帕尔指出,数字信任是其平台与生俱来的,他们将其付诸于实践。
Box对传统代码和新的AI和ML支持的系统都有一个安全的开发流程。汉斯帕尔说:“我们在开发安全产品方面与ISO的行业标准保持一致。设计上的安全性是内置的,而且有制衡机制,包括渗透测试和红色团队。”
数学家和数据科学家在编写AI和ML算法代码时通常不担心潜在的漏洞。当企业构建AI系统时,他们会借鉴现有的开源算法,使用商业的“黑匣子”AI系统,或者从零开始构建自己的AI系统。
对于开放源码,攻击者有可能嵌入恶意代码,或者代码包含漏洞或易受攻击的依赖项。专有商业系统还使用开放源代码,以及企业客户通常无法查看的新代码。
逆向攻击是一个主要威胁
AI和ML系统通常是由非安全工程师创建的开源库和新编写的代码的组合。此外,不存在用于编写安全AI算法的标准优秀实践。考虑到安全专家和数据科学家的短缺,这两方面的专家供应更少。
AI和ML算法是比较大的潜在风险之一,也是博思艾伦•汉密尔顿(BoozAllenHamilton)的Raff最担心的长期威胁之一,其有可能将训练数据泄露给攻击者。他表示:“有一些逆向攻击,可以让人工智能模型向你提供关于它自身以及它所接受的训练的信息。如果它是根据PII数据进行训练的,你就可以让模型向你泄露这些信息。实际的PII可能会暴露出来。”
Raff说,这是一个被积极研究的领域,也是一个巨大的潜在痛点。有些工具可以保护训练数据免受逆向攻击,但它们太昂贵了。他表示:“我们知道如何阻止这种威胁,但这样做会使培训模型的成本增加100倍,这并不夸张,所以没人会这么做。”
你不能确保你不能解释的东西安全
另一个研究领域是可解释性。今天,许多AI和ML系统,包括许多主要网络安全供应商提供的AI和ML支持的工具,都是“黑匣子”系统。YLVentures的CISOSounilYu表示:“供应商没有在其中建立可解释性。在安全方面,能够解释所发生的事情是一个基本的组成部分。如果我不能解释为什么会发生这种情况,我怎么能补救呢?“。
对于构建自己的AI或ML系统的公司来说,当出现问题时,他们可以回到训练数据或使用的算法来解决问题。Yu指出,如果你是从别人那里构建的,你根本不知道训练数据是什么。
需要保护的不仅仅是算法
人工智能系统不仅仅是一个自然语言处理引擎,或者仅仅是一个分类算法,或者仅仅是一个神经网络。即使这些部分是完全安全的,系统仍然必须与用户和后端平台交互。
系统是否使用强身份验证和最低权限原则?到后端数据库的连接是否安全?与第三方数据源的连接情况如何?用户界面对注入攻击是否有弹性?
另一个与人相关的不安全感来源是人工智能和机器学习项目独有的:数据科学家。奥托特的阿巴蒂科表示,优秀的数据科学家对数据进行实验,得出有洞察力的模型。然而,当涉及到数据安全时,实验可能会导致危险的行为。使用完数据后,他们可能会倾向于将数据移动到不安全的位置或删除样本数据集。Othot在早期就投资于获得SOCII认证,这些控制有助于在整个公司实施强有力的数据保护实践,包括在移动或删除数据时。
人工智能机构UrvinAI的产品经理、国际非营利性安全研究组织ISECOM的联合创始人彼得•赫尔佐格(PeterHerzog)表示:“事实是,所有地方的大多数人工智能模型中较大的风险并不在人工智能中,问题出在人身上。没有安全问题的人工智能模型几乎没有,因为人们决定如何训练他们,人们决定包括什么数据,人们决定他们想要预测和预测什么,以及人们决定暴露多少信息。”
另一个特定于AI和ML系统的安全风险是数据中毒,即攻击者将信息输入系统,迫使系统做出不准确的预测。例如,攻击者可能会通过向系统提供具有类似恶意软件指示器的合法软件示例来欺骗系统,使其认为恶意软件是安全的。
拉夫说:“这是大多数企业高度关注的问题。目前,我没有意识到任何人工智能系统在现实生活中受到攻击。从长远来看,这是一个真正的威胁,但现在攻击者用来逃避杀毒软件的经典工具仍然有效,所以他们不需要变得更花哨。”
避免偏差和模型漂移
当AI和ML系统用于企业安全时,例如,用于用户行为分析、监控网络流量或检查数据泄露,偏差和模型漂移可能会产生潜在风险。很快过时的训练数据集可能会使组织变得脆弱,特别是在越来越依赖人工智能进行防御的情况下。企业需要不断更新模型,让更新模型成为一件持续的事情。
在某些情况下,训练数据可以是自动的。例如,调整模型以适应不断变化的天气模式或供应链交付时间表,可以帮助使其随着时间的推移变得更加可靠。当信息源涉及恶意行为者时,则需要仔细管理训练数据集,以避免中毒和操纵。
企业已经在处理造成道德问题的算法,例如当面部识别或招聘平台歧视女性或少数族裔时。当偏见悄悄渗透到算法中时,它还可能造成合规问题,或者,在自动驾驶汽车和医疗应用的情况下,可能会导致人员死亡。
就像算法可以在预测中注入偏差一样,它们也可以用来控制偏差。例如,Othot帮助大学实现优化班级规模或实现财务目标。Othot的Abbatico说,在没有适当约束的情况下创建模型很容易造成偏见。“对偏见进行审查需要多花精力。添加与多样性相关的目标有助于建模理解目标,并有助于抵消偏见,如果不将多样性目标作为约束因素包括在内,偏见则很容易被纳入。”
人工智能的未来在云端
AI和ML系统需要大量的数据、复杂的算法和强大的处理器,这些处理器可以在需要时进行扩展。所有主要的云供应商都在争先恐后地提供数据科学平台,这些平台将所有东西都放在一个方便的地方。这意味着数据科学家不需要等待IT为他们配置服务器。他们只需上网,填写几张表格,就可以开业了。
根据德勤的AI调查,93%的企业正在使用某种形式的基于云的AI。德勤的Loucks说:“这让我们更容易上手。”然后,这些项目会变成运营系统,随着规模的扩大,配置问题会成倍增加。有了最新的服务,集中化、自动化的配置和安全管理仪表盘可能不可用,公司必须自己编写或等待供应商加快步伐填补空白。
当使用这些系统的人是公民数据科学家或理论研究人员,而他们在安全方面没有很强的背景时,这可能是一个问题。此外,供应商历来都是先推出新功能,然后再推出安全功能。当系统被快速部署,然后扩展得更快时,这可能会是一个问题。我们已经在物联网设备、云存储和容器上看到了这种情况。
Raff说,人工智能平台供应商越来越意识到这一威胁,并从错误中吸取了教训。他说:“我看到,考虑到历史上的‘安全放在最后’的心态,纳入安全内容的计划比我们原本预期的要积极得多。ML社区对此更为关注,延迟时间可能会更短。”
德勤(Deloitte)AI联席主管IrfanSaif对此表示赞同,特别是在涉及到支持大型企业AI工作负载的主要云平台时。就网络安全能力的演变而言,它们可能比之前的技术更成熟。
人工智能项目安全检查清单
以下这些帮助确保人工智能项目安全的清单摘自德勤的《企业中的人工智能状况》(第3版):
保存所有人工智能实施的正式清单使人工智能风险管理与更广泛的风险管理工作保持一致有一名高管负责与人工智能相关的风险进行内部审计和测试利用外部供应商进行独立审计和测试培训从业者如何认识和解决围绕人工智能的伦理问题与外部各方合作,制定合理的人工智能道德规范确保人工智能供应商提供不偏不倚的系统制定指导人工智能伦理的政策或委员会
人工智能的8个有用的日常例子
如果你在谷歌上搜索“人工智能”这个词,然后不知怎的就打开了这篇文章,或者用优步(Uber)打车上班,那么你就利用了人工智能。
人工智能影响我们生活的例子不胜枚举。虽然有人将其称为“机器人以邪恶的天才统治世界”的现象,但我们无法否认人工智能通过节省时间、金钱和精力使生活变得轻松。
[[330378]]
术语
人工智能是指机器通过专门设计的算法来理解、分析和学习数据,从而充当人类思维蓝图的现象。人工智能机器能够记住人类的行为模式并根据他们的喜好进行调整。
在我们的讨论过程中,您将遇到与AI密切相关的主要概念是机器学习、深度学习和自然语言处理(NLP)。在继续之前,让我们先了解这些。
机器学习(ML)涉及通过大数据为例向机器教学有关重要概念的知识,大数据需要被构造(以机器语言)以便机器理解。这些都是通过向他们提供正确的算法来完成的。
深度学习(DeepLearning)比ML领先一步,这意味着它通过表示进行学习,但不需要对数据进行结构化以使其有意义。这是由于受人类神经结构启发的人工神经网络。
自然语言处理(NLP)是计算机科学中的一种语言工具。它使机器能够阅读和解释人类语言。NLP允许自动翻译人类语言数据,并使两个使用不同语言的实体(计算机和人类)进行交互。
现在您已经掌握了术语,让我们深入研究人工智能的示例及其工作方式。
8个人工智能的例子
以下列出了您每天可能会遇到的八个人工智能示例,但您可能没有意识到它们的AI方面。
1.谷歌地图和打车应用
地图应用程序如何知道确切的方向、最佳路线,甚至是道路障碍和交通堵塞呢?不久以前,只有GPS(基于卫星的导航系统)被用作出行的导航。但是现在,人工智能被纳入其中,让用户在特定的环境中获得更好的体验。
通过机器学习,app算法会记住建筑的边缘,在工作人员手动识别之后,这些边缘会被输入系统。这允许在地图上添加清晰的建筑视觉效果。另一个特点是识别和理解手写的门牌号的能力,这可以帮助通勤者找到他们想要的房子。没有正式街道标志的地方也可以用它们的轮廓或手写的标签来识别。
该应用程序已被教会理解和识别流量。因此,它推荐了避免路障和拥堵的最佳路线。基于AI的算法还告诉用户到达目的地的确切距离和时间,因为它被教导可以根据交通状况进行计算。用户还可以在到达目的地之前查看其位置的图片。
因此,通过采用类似的AI技术,各种乘车应用也已出现。因此,每当您通过在地图上定位您的位置来从应用程序预订出租车时,它都是这样工作的。
2.人脸检测与识别
当我们拍照时在脸上使用虚拟滤镜和使用人脸识别码解锁手机是人工智能的两个应用,现在已经成为我们日常生活的一部分。前者包含人脸检测,即识别任何人脸。后者使用人脸识别来识别特定的人脸。
这是如何运作的?
智能机器经常匹配,有时甚至超越的能力。人类婴儿开始识别面部特征,如眼睛、鼻子、嘴唇和脸型。但这并不是一张脸的全部。有太多的因素使人的脸与众不同。智能机器被教导识别面部坐标(x、y、w和h,它们在面部周围形成一个正方形作为感兴趣的区域)、地标(眼睛、鼻子等)和对齐(几何结构)。
人脸识别还被政府机构或机场用于监视和安全。例如,伦敦盖特威克机场(GatwickAirport)在允许乘客登机之前使用面部识别摄像头作为ID检查。
3.文本编辑器或自动更正
当您键入文档时,有一些内置或可下载的自动更正工具,可根据其复杂程度检查拼写错误、语法、可读性和剽窃。
在您流利使用英语之前,一定已经花了一段时间来学习语言。同样,人工智能算法还使用机器学习、深度学习和自然语言处理来识别语言的不正确用法并提出更正建议。
语言学家和计算机科学家一起工作,以教授机器语法,就像在学校一样。机器被提供了大量高质量的语言数据,这些数据以机器可以理解的方式进行组织。因此,即使您不正确地使用单个逗号,编辑器也会将其标记为红色并提示建议。
下次让语言编辑器检查文档时,请知道您使用的是人工智能的许多示例之一。
4.搜索和推荐算法
当您想看自己喜欢的电影或听歌或在网上购物时,您是否注意到建议的内容完全符合您的兴趣?这就是人工智能的功能。
这些智能推荐系统可从您的在线活动中了解您的行为和兴趣,并为您提供类似的内容。通过不断的培训,可以实现个性化的体验。数据在前端(从用户)收集,存储为大数据,并通过机器学习和深度学习进行分析。然后,它可以通过建议来预测您的喜好,而无需进行任何进一步的搜索。
同样,优化的搜索引擎体验是人工智能的另一个示例。通常,我们的热门搜索结果会找到我们想要的答案。怎么发生的?
向质量控制算法提供数据,以识别超越SEO垃圾内容的高质量内容。这有助于根据质量对搜索结果进行升序排列,以获得最佳用户体验。
由于搜索引擎由代码组成,因此自然语言处理技术可以帮助这些应用程序理解人类。实际上,他们还可以通过汇编排名靠前的搜索并预测他们开始键入的查询来预测人们要问的问题。
诸如语音搜索和图像搜索之类的新功能也不断被编程到机器中。如果要查找在商场播放的歌曲,只需将手机放在旁边,音乐识别应用程序就会在几秒钟内告诉您歌曲的内容。在丰富的歌曲数据库中进行筛选后,机器还将告诉您与该歌曲有关的所有详细信息。
5.聊天机器人
作为一个客服,回答问题可能会很费时。一个人工智能的解决方案是使用算法来训练机器,通过聊天机器人来迎合客户的需求。这使得机器能够回答常见问题,并接受和跟踪订单。
聊天机器人被教导通过自然语言处理(NLP)来模仿客户代表的对话风格。高级聊天机器人不再需要特定的输入格式(例如,是/否问题)。他们可以回答需要详细答复的复杂问题。实际上,它们只是人工智能的另一个例子,它们给人的印象是客户代表。
如果您对收到的答复的评价不佳,则机器人会识别出所犯的错误并在下次进行纠正,以确保最大的客户满意度。
6.数字助理
当我们全力以赴时,我们常常求助于数字助理来代表我们执行任务。当您单手开车喝咖啡时,您可能会要求助手给您的妈妈打电话。助理(例如Siri)将访问您的联系人,识别单词“Mom”并拨打电话。
Siri是一个较低层模型的示例,该模型只能在说话时做出响应,而不能给出复杂的答案。最新的数字助理精通人类语言,并集成了高级NLP和ML。他们了解复杂的命令输入并给出令人满意的输出。他们具有自适应能力,可以分析您的喜好、时间表和习惯。这使他们能够以提醒、提示和时间表的形式为您系统化、组织和计划事务。
7.社交媒体
社交媒体的出现为世界提供了一种新的叙事方式,提供了过度的言论自由。然而,这也带来了一些社会弊端,如网络犯罪、网络欺凌和仇恨言论。各种社交媒体应用程序都在使用人工智能的支持来控制这些问题,并为用户提供其他有趣的功能。
AI算法可以发现并迅速删除包含仇恨言论的帖子,速度远比人类快。通过他们以不同语言识别仇恨关键字,短语和符号的能力,这成为可能。这些已被输入到系统中,该系统具有向其词典添加新词的附加功能。深度学习的神经网络架构是该过程的重要组成部分。
表情符号已成为代表各种情感的最佳方式。AI技术也可以理解这种数字语言,因为它可以理解特定文本的含义并提示正确的表情符号作为预测文本的一部分。
社交媒体是人工智能的一个很好的例子,它也能够理解用户产生共鸣的内容并向他们建议相似的内容。面部识别功能还用于社交媒体帐户中,可帮助人们通过自动建议为朋友加标签。智能过滤器可以识别并自动清除垃圾邮件或不需要的邮件。智能回复是用户可以享受的另一个功能。
社交媒体行业的一些未来计划包括使用人工智能通过分析发布和消费的内容来识别心理健康问题,例如自杀倾向。这可以转发给心理健康医生。
8.电子支付
银行现在正在利用人工智能通过简化支付流程来便利客户。
通过观察用户的信用卡支出模式来检测欺诈的方式也是人工智能的一个示例。例如,算法知道用户X购买哪种产品,何时何地购买产品以及价格落在什么价格区间。当有一些不正常的活动不适合用户个人资料时,系统会立即提醒用户X。
总结
人工智能算法超越了人类的能力,可以节省时间,从而使科学家们可以将精力投入到其他更重要的发现中。
我们已经讨论过的人工智能示例不仅可以作为娱乐的来源,而且还提供了我们已变得如此依赖的无数实用程序。人工智能领域仍处于新生阶段,还有更多的发明将更精确地复制人类的能力。