人工智能与数据安全
2020年12月19日上午,首届清华大学人工智能合作与治理国际论坛举行了“人工智能与数据安全”分论坛,由北京智源人工智能研究院承办。在分论坛上,来自学届与产业届的专家聚焦讨论了数据与人工智能的近期与远期风险、安全挑战及对策。
在主旨演讲环节,剑桥大学智能未来研究中心研究员丹尼特·加尔(DanitGal)重点总结了人工智能安全相关的内部风险与外部防御的近期挑战,并对各国数据规制应当形成全球协作提出建议。荷兰埃因霍温科技大学教授文森特·穆勒(VincentMuller)指出通用人工智能和超级智能的长远风险具有极大不确定性。美国路易斯维尔大学教授罗曼·扬波尔斯基(RomanYampolskiy)谈及人工智能、安全和防御的未来,并表达了对于人工智能的担忧。
在专题讨论环节,奇虎360人工智能研究院院长邓亚峰、数据科学家麻丹彤、腾讯研究院高级研究员曹建峰、北京师范大学网络法治国际中心执行主任吴沈括也分别就人工智能与数据安全面临的机遇、挑战和发展趋势等发表了一系列前瞻洞见。与会专家一致表示,全球应当深度协作应对数据与人工智能的近期与长远风险。分论坛由北京智源人工智能研究院人工智能伦理与可持续发展中心主任、中科院自动化所中英人工智能伦理与治理中心主任曾毅主持。
丹尼特·加尔发言
丹尼特·加尔在主旨演讲中区分了人工智能安全的两大重要概念(Safety和Security)的概念。Safety更偏向内部,针对的是一些无意伤害的预防措施,从系统中保护环境。Security更倾向于对外部攻击的防御,聚焦在那些有意对个人、组织和财产施加伤害的行为,从环境中保护系统。她认为,科技影响着我们所有人,它的安全和保障也是如此。然而,我们应对这些影响的能力远远落后于开发和使用。人工智能和数据流进一步复杂化了这一动态,引入并连接了新的机会和新的漏洞。丹尼特·加尔建议,应加强交流、推动合作,以减少脆弱性,在全球范围内倡导并激励数据安全治理工作。
文森特·穆勒发言
文森特·穆勒在主旨演讲中,分成两步介绍了超级智能和通用人工智能的长期风险,即从超级智能到技术奇点,再从技术奇点到生存风险。超级智能指的是在许多非常普遍的认知领域远远超过当今人类最佳智力的人工智能。从超级智能到技术奇点,他强调了三个前提假设,分别是我们拥有更快的速度和更多的数据,不需要认知科学,以及十分紧急。从技术奇点到生存风险,他强调了两点前提假设,理性主体决策理论适用于人工智能,以及智能和最终目标的正交性。
罗曼·扬波尔斯基发言
罗曼·扬波尔斯基在主旨演讲中,分享了关于人工智能、安全和防御的未来的看法。当前超级智能正在来临,超级智能意味着超级聪明、超级复杂、超级快速、超级控制、超级病毒。他谈到关于人工智能的担心,重点介绍了最近的几项研究工作,包括通往危险的人工智能的路径分类学、人工智能安全不可能的结果、缓解负面影响、人工智能的限制问题等。他认为,人工智能失败的时间轴呈指数趋势,人工智能失败的频率和严重程度都会增加,这与人工智能的能力成比例。
专家对话
曹建峰分享了对算法偏差和深度合成(deepsynthesis)的看法,并提出了解决问题的建议。当前人工智能系统必须使用大量数据训练算法。如果训练数据是有偏见的或不完整的,人工智能系统将会显示有偏见的行为。因此,人工智能开发应该对数据质量有合理的控制。但数据并不是偏见的唯一来源,解决算法偏见还需要AI从业人员秉持伦理价值。此外,人工智能开发与隐私保护直接存在紧张关系;在影视制作、社交、娱乐、教育、电商等领域具有很大正向应用潜能的深度合成也可能被滥用来进行违法活动。为解决这些问题,曹建峰给出了四点建议,人工智能与数据产品开发需要遵循“通过设计的伦理”(ethicsbydesign)理念,将公平、安全等伦理价值融入产品设计全周期,并有防止滥用的保障措施;二是在企业、国家乃至国际层面建立负责任的人工智能开发和数据使用的道德准则;三是在国际社会分享最佳实践经验;四是业界需要探索开发隐私保护型的AI技术方法,如联邦学习等,来在隐私保护与数据利用之间实现更好平衡。
吴沈括认为国际社会需要面对新技术环境下数据违法行为带来的新挑战和法律漏洞。首先,由于不同地区、国家法律法规的缺失和差异,普遍导致对新型数据违法行为司法规制不足。其次,各国现行法律制度框架尚不能充分保障跨境证据收集与交换的快速高效。最后,在网络匿名的背景下,一些国家的监测、预警和应急机制越来越难以有效应对脆弱性问题的快速增长。因此,在全球化深入发展的新时代,数据违法行为的跨国衍变要求更高水平的国际合作治理,建立信任世界。
邓亚峰总结了人工智能在数据安全方面存在的潜在威胁。首先,由于人工智能是快速出现的新应用,人工智能应用生产和部署的各个环节都暴露出了一系列的安全风险。其次,人工智能和大数据应用往往与大量隐私数据关联,这些数据往往需要被送到云端进行分析和计算,造成了比原来更严重的数据泄露和安全风险。第三,虽然从技术角度看,人工智能体很长一段时间都无法拥有真正的自我意识,但是,我们无法排除一些不法分子会对人工智能加以利用,而这会带来大量的社会伦理问题。最后,由于人工智能在短期内会造成一部分从事简单重复性工作的人类失业,这会引起一定的恐慌和排斥。此外,人工智能也因为技术的不成熟,会被认为在识别结果上存在一定的歧视。他认为,人工智能和数据安全是全世界都统一面临的问题,需要全世界的组织和个人联合起来一起行动。
最后,专家们表示,人工智能和数据安全的治理需要世界各国和组织联合起来,制定更加明晰有效的法律法规,构建统一的人工智能模型与系统的安全评估准则和标准,在全球范围内用更加开放协同的方式进行科学研究和技术交流,推动人工智能技术在安全的基础上更快速的落地,构建更安全、更美好的世界。
分论坛五议程
《人工智能数据安全白皮书(2019年)》正式发布
原标题:《人工智能数据安全白皮书(2019年)》正式发布2019年8月9日在厦门举办的中国人工智能高峰论坛“人工智能与大数据安全分论坛”上,中国信息通信研究院(以下简称“中国信通院”)安全研究所发布《人工智能数据安全白皮书(2019年)》,中国信通院安全研究所信息安全研究部主任魏薇进行了详细解读。
当前,数据作为驱动本轮人工智能浪潮全面兴起的关键要素,数据安全已成为人工智能安全的关键。与此同时,人工智能应用也为数据安全治理带来新机遇。如何应对人工智能场景下的数据安全风险并促进人工智能在数据安全领域中的应用,日渐成为人工智能安全治理的重要议题。
白皮书摘要
人工智能作为引领新一轮科技革命和产业变革的战略性技术,已成为世界主要国家谋求新一轮国家科技竞争主导权的关键领域。随着政府人工智能战略布局的落地实施,全球人工智能发展正进入技术创新迭代持续加速和融合应用拓展深化的新阶段,深刻改变着国家政治、经济、社会、国防等领域的运行模式,对人类生产生活带来翻天覆地的变化。
数据作为驱动本轮人工智能浪潮全面兴起的三大基础要素之一,数据安全风险已成为影响人工智能安全发展的关键因素。与此同时,人工智能应用也给数据安全带来严峻挑战,如何应对人工智能场景下的数据安全风险日渐成为国际人工智能治理的重要议题。部分国家已率先探索人工智能数据安全风险的前瞻研究和主动预防,并积极推动人工智能在数据安全领域应用,力求实现人工智能与数据安全的良性互动发展。
本白皮书从人工智能数据安全的内涵出发,首次提出人工智能数据安全的体系架构,在系统梳理人工智能数据安全风险和安全应用情况的基础上,总结了国内外人工智能数据安全治理现状,研究提出了我国人工智能数据安全治理建议。
白皮书目录
一、人工智能数据安全概述
(一)人工智能安全
(二)人工智能数据安全内涵
展开全文(三)人工智能数据安全体系架构
二、人工智能数据安全风险
(一)人工智能自身面临的数据安全风险
(二)人工智能应用导致的数据安全风险
(三)人工智能应用加剧的数据治理挑战
三、人工智能数据安全应用
(一)人工智能与数据安全治理
(二)人工智能在数据安全治理中的应用
四、国内外人工智能数据安全治理动态
(一)国内外人工智能数据安全战略规划情况
(二)国内外人工智能数据安全伦理规范情况
(三)国内外人工智能数据安全法律制定情况
(四)国内外人工智能数据安全技术发展情况
(五)国内外人工智能数据安全标准规范情况
五、人工智能数据安全治理建议
(一)明晰发展与安全并举的治理思路
(二)引导社会遵循人工智能伦理规范
(三)建立人工智能数据安全法律法规
(四)完善人工智能数据安全监管措施
(五)健全人工智能数据安全标准体系
(六)创新人工智能数据安全技术手段
(七)培养复合人工智能数据安全人才
下载方式
关注公众号,并在首页回复关键词“人工智能安全”,下载白皮书。
校审|陈力、凌霄
编辑|珊珊
”
从最新《开放政府数据法》看美国开放政府数据的思路
“5G+”时代智能制造创新应用前瞻返回搜狐,查看更多
责任编辑:人工智能安全
目录一、引言二、AI技术与安全模型2.1安全技术2.2AI安全问题分类三、AI技术面临的三大威胁3.1AI模型安全性问题3.2.1模型训练完整性威胁3.2.2模型训练完整性威胁3.2AI数据与隐私安全性问题3.2.1 基于模型输出的数据泄露3.2.2基于梯度更新的数据泄露3.3AI系统安全性问题3.3.1 硬件设备安全问题3.3.2 系统与软件安全问题四、AI威胁常用防御技术 五、AI 应用系统一站式安全解决方案5.1行业介绍5.2多维对抗与AISDL六、总结与展望本文综合考虑AI技术在模型、数据、承载系统上对安全性的要求,我们用保密性、完整性、鲁棒性、隐私性来定义AI技术的安全模型,并且给出了人工智能安全目前面临的三大威胁:AI模型安全性问题、AI数据与隐私安全性问题,AI系统安全性问题。针对不同的安全威胁,提出了不同防御方法,包括数据投毒攻击、对抗样本攻击、数据隐私威胁。但在实际场景中,AI系统遇到的威胁往往十分复杂,仅靠单一的防御技术无法有效抵御实际威胁。因此本文总结国内大厂采用的AI安全解决方案,然后再从这些方案中提炼出一套涵盖面更广泛的AI安全解决方案,主要包括多维对抗和AISDL。
最后,人工智能应用在实际部署时面临对抗攻击、数据投毒攻击和模型窃取攻击等多种潜在威胁。为了应对实际场景中复杂的威胁以及不断变化的威胁手段,AI安全研究人员更应从人工智能模型的可解释性等理论角度出发,从根本上解决人工智能模型所面临的安全问题。
一、引言人工智能技术的崛起依托于三个关键要素:1)深度学习模型在机器学习任务中取得的突破性进展;2)日趋成熟的大数据技术带来的海量数据积累;3)开源学习框架以及计算力提高带来的软硬件基础设施发展。我们在本文中将这三个因素简称为AI模型、AI数据以及AI承载系统。在这三个要素的驱动下,AI技术已经成功应用于生物核身、自动驾驶、图像识别、语音识别等多种场景中,加速了传统行业的智能化变革。随着对这三个因素的探索持续深入,AI技术不仅在多个经典机器学习任务中取得了突破性进展,还广泛应用于真实世界中的各类场景。
为了应对AI技术的安全与隐私泄露威胁,学术界与工业界深入分析攻击原理,并根据不同的攻击原理提出一系列对应的防御技术。这些防御技术覆盖了数据收集、模型训练、模型测试以及系统部署等AI应用的生命周期,充分考虑了每个阶段可能引发的安全与隐私泄露威胁,详细分析了现有攻击方法的原理、攻击实施的过程以及产生的影响,并最终提出对应的防御技术。例如:为了防止攻击者在数据收集阶段污染训练数据并操纵模型训练参数,研究者分析了训练数据毒化对模型产生的影响,随后提出了利用聚类模型激活神经元来区分毒化和干净的数据的防御方法[9];为了防止已经训练好的AI模型被嵌入攻击“后门”,研究者分析了模型中存在“后门”攻击的潜在特征,随后提出了模型剪枝/微调等方法来消除模型中存在的“后门”[10];为了防止攻击者在测试阶段发起的对抗样本攻击,研究者提出使用JPEG压缩、滤波操作、图像模糊处理等方法对输入数据进行预处理,从而降低对抗性扰动带来的影响[11]。此外,为了防止AI模型在训练/测试阶段泄露模型的关键参数,研究者通过对模型结构的适当调整,降低模型过拟合度,从而减少模型泄露的参数信息。尽管上述研究为AI模型提供了有效的防御机制,但会不可避免地降低AI技术在应用中的判断准确率和执行效率。除了从技术层面防范AI安全威胁之外,越来越多的国家和地区推出了数据安全法律法规来保护用户的隐私数据。
综上所述,AI技术所面临的多种安全威胁将会对用户隐私数据造成泄露,并在实际应用场景中对用户的生命与财产带来损失的风险。为了应对AI技术所面临的安全与隐私威胁,本文系统性地总结了学术界与工业界对AI安全与隐私保护技术的相关研究成果。聚焦于AI技术中模型、数据与承载系统的安全问题。我们将首先详细介绍AI模型、数据与承载系统面临的安全威胁,然后逐一介绍针对这些威胁的防御技术,最后提出AI应用的一站式安全解决方案。
二、AI技术与安全模型人工智能是一种通过预先设计好的理论模型模拟人类感知、学习和决策过程的技术。完整的AI技术涉及到AI模型、训练模型的数据以及运行模型的计算机系统,AI技术在应用过程中依赖于模型、数据以及承载系统的共同作用。
AI模型模型是AI技术的核心,用于实现AI技术的预测、识别等功能,也是AI技术不同于其它计算机技术的地方。AI模型具有数据驱动、自主学习的特点,负责实现机器学习理论和对应算法,能够自动分析输入数据的规律和特征,根据训练反馈自主优化模型参数,最终实现预测输入样本的功能。AI模型通常结合数据挖掘、深度神经网络、数值优化等算法层面的技术来实现其主要功能。以手写数字分类任务为例,AI模型需要判断输入图像是0-9中的哪个数字。为了学习手写数字分类模型,研究者构建训练数据集(例如:MNIST数据集){xi,yi},i=1,2,...,N,其中xi,yi代表某张图像与其对应的数字。模型可以选取卷积神经网络y=fθ(x),其中θ为卷积神经网络的参数。在训练过程中,AI模型使用优化算法不断调整卷积神经网络参数,使模型在训练集上的输出预测结果尽可能接近正确的分类结果。AI数据数据是AI技术的核心驱动力,是AI模型取得出色性能的重要支撑。AI模型需要根据种类多样的训练数据,自动学习数据特征,对模型进行优化调整。海量的高质量数据是AI模型学习数据特征,取得数据内在联系的基本要求和重要保障。尽管AI技术所使用的算法大多在20年前就已经被提出来了,但是直到近些年来,随着互联网的成熟、大规模数据的收集和大数据处理技术的提升才得到了迅猛的发展。大规模数据是AI技术发展的重要支撑,具有以下几个特点:(1)数据体量大,AI模型主要学习知识和经验,而这些知识和经验来源于数据,然而单个数据价值密度较低,大体量的数据有助于模型全面学习隐含的高价值特征和规律;(2)数据多样性强,从各种各样类型的海量数据中,模型可以学习到多样的特征,从而增强模型的鲁棒性与泛化能力。AI承载系统应用系统是AI技术的根基,AI技术从模型构建到投入使用所需要的全部计算机基础功能都属于这一部分。一般的AI应用部署的流程大致如下:收集应用所需要的大规模数据,使用相关人工智能算法训练模型,将训练完成的模型部署到应用设备上。AI承载系统为AI技术提供重要的运行环境,例如:储存大规模数据需要可靠的数据库技术、训练大型AI模型需要巨大的计算机算力、模型算法的具体实现需要AI软件框架和第三方工具库提供稳定的接口,数据收集与多方信息交互需要成熟稳定的互联网通信技术。目前构建AI应用常使用的主流框架有Tensorflow、PyTorch等,框架高效实现了AI模型运行中所需要的各种操作,例如:卷积、池化以及优化等。这些框架提供了AI技术执行接口供研发人员调用,使其能够通过调用接口快速搭建自定义的AI模型,从而不需要花费太多精力关注底层的实现细节,简化了AI应用的开发难度,使开发人员能够更深入地关注业务逻辑与创新方法。这些优点使得AI技术快速发展,极大地促进了AI应用的落地和普及。
2.1安全技术学术界与工业界的研究工作表明AI技术在应用过程中存在不可估量的安全威胁,这些威胁可能会导致严重的生命和财产损失。投毒攻击[1]毒害AI模型,使得AI模型的决策过程受攻击者控制;对抗样本攻击[3]导致模型在攻击者的恶意扰动下输出攻击者指定的错误预测;模型窃取攻击[8]导致模型的参数信息泄漏。此外,模型逆向工程[6]、成员推断攻击[12]、后门攻击[13]、伪造攻击[14]以及软件框架漏洞[15]等多种安全威胁都会导致严重的后果。这些潜在的威胁使模型违背了AI安全的基本要求。在本小节中,我们立足于AI技术在应用中面临的威胁,借鉴传统信息安全与网络空间安全的标准规范,讨论适用于AI技术的安全模型。
AI技术的崛起不仅依赖于以深度学习为代表的建模技术的突破,更加依赖于大数据技术与AI开源系统的不断成熟。因此,我们在定义AI安全模型的时候,需要系统性地考虑AI模型、AI数据以及AI承载系统这三者对安全性的要求。在AI模型层面,AI安全性要求模型能够按照开发人员的设计准确、高效地执行,同时保留应用功能的完整性,保持模型输出的准确性,以及面对复杂的应用场景和恶意样本的场景中具有较强鲁棒性;在AI数据层面,要求数据不会被未授权的人员窃取和使用,同时在AI技术的生命周期中产生的信息不会泄露个人隐私数据;在AI承载系统层面,要求承载AI技术的各个组成部分能够满足计算机安全的基本要素,包括物理设备、操作系统、软件框架和计算机网络等。综合考虑AI技术在模型、数据、承载系统上对安全性的要求,我们用保密性、完整性、鲁棒性、隐私性定义AI技术的安全模型,如下:
•保密性(Confidentiality)要求AI技术生命周期内所涉及的数据与模型信息不会泄露给未授权用户。
•完整性(Integrity)要求AI技术在生命周期中,算法模型、数据、基础设施和产品不被恶意植入、篡改、替换和伪造。
•鲁棒性(Robustness)要求AI技术在面对多变复杂的实际应用场景的时候具有较强的稳定性,同时能够抵御复杂的环境条件和非正常的恶意干扰。例如:自动驾驶系统在面对复杂路况时不会产生意外行为,在不同光照和清晰度等环境因素下仍可获得稳定结果。
•隐私性(Privacy)要求AI技术在正常构建使用的过程中,能够保护数据主体的数据隐私。与保密性有所区别的是,隐私性是AI模型需要特别考虑的属性,是指在数据原始信息没有发生直接泄露的情况下,AI模型计算产生的信息不会间接暴露用户数据。
2.2AI安全问题分类我们在本小节讨论AI技术在应用过程中存在的安全威胁的分类方法,并且分析了常见的安全威胁具体违背了安全模型的哪些安全性要求。总体来说,我们根据AI技术涉及的三方面:模型、数据、承载系统,将AI安全威胁分为三个大类别,即AI模型安全、AI数据安全与AI承载系统安全。
•AI模型安全问题
AI模型安全是指AI模型面临的所有安全威胁,包括AI模型在训练与运行阶段遭受到来自攻击者的功能破坏威胁,以及由于AI模型自身鲁棒性欠缺所引起的安全威胁。我们进一步将AI模型安全分为三个子类,分别为:1)训练完整性威胁,攻击者通过对训练数据进行修改,对模型注入隐藏的恶意行为。训练完整性威胁破坏了AI模型的完整性,该威胁主要包括传统投毒攻击和后门攻击;2)测试完整性威胁,攻击者通过对输入的测试样本进行恶意修改,从而达到欺骗AI模型的目的,测试完整性威胁主要为对抗样本攻击;3)鲁棒性欠缺威胁,该问题并非来自于恶意攻击,而是来源于AI模型结构复杂、缺乏可解释性,在面对复杂的现实场景时可能会产生不可预计的输出。上述安全隐患如果解决不当,将很难保证AI模型自身行为的安全可靠,阻碍AI技术在实际应用场景中的推广落地。我们将在3.1小节中具体介绍这些安全威胁。
•AI数据安全问题
数据是AI技术的核心驱动力,主要包括模型的参数数据和训练数据。数据安全问题是指AI技术所使用的训练、测试数据和模型参数数据被攻击者窃取。这些数据是模型拥有者花费大量的时间和财力收集得到的,涉及用户隐私信息,因此具有巨大的价值。一旦这些数据泄露,将会侵犯用户的个人隐私,造成巨大的经济利益损失。针对AI技术使用的数据,攻击者可以通过AI模型构建和使用过程中产生的信息在一定程度上窃取AI模型的数据,主要通过两种方式来进行攻击:1)基于模型的输出结果,模型的输出结果隐含着训练/测试数据的相关属性。以脸部表情识别为例,对于每张查询的输入图片,模型会返回一个结果向量,这个结果向量可能包含关于脸部内容的信息,例如微笑、悲伤、惊讶等不同表情的分类概率,而攻击者则可以利用这些返回的结果信息,构建生成模型,进而恢复原始输入数据,窃取用户隐私[16];2)基于模型训练产生的梯度,该问题主要存在于模型的分布式训练中,多个模型训练方之间交换的模型参数的梯度也可被用于窃取训练数据。
图2.1:AI技术面临的安全威胁与挑战、AI安全常用防御技术以及AI应用系统安全解决方案之间的关系
•AI承载系统安全问题
承载AI技术的应用系统主要包括AI技术使用的基础物理设备和软件架构,是AI模型中数据收集存储、执行算法、上线运行等所有功能的基础。应用系统所面临的安全威胁与传统的计算机安全威胁相似,会导致AI技术出现数据泄露、信息篡改、服务拒绝等安全问题。这些问题可以归纳为两个层面:1)软件框架层面,包含主流的AI算法模型的工程框架、实现AI技术相关算法的开源软件包和第三方库、部署AI软件的操作系统,这些软件可能会存在重大的安全漏洞;2)硬件设施层面,包含数据采集设备、GPU服务器、端侧设备等,某些基础设备缺乏安全防护容易被攻击者侵入和操纵,进而可被利用施展恶意行为。
图2.1详细描述了AI技术面临的安全威胁与挑战、AI安全常用防御技术以及AI应用系统安全解决方案之间的关系,例举了AI技术在应用过程中存在的安全威胁和防御技术的种类。在接下来的章节中,我们会全面介绍目前AI技术所面临的安全挑战,以及在现实场景中可能出现的安全隐患。
三、AI技术面临的三大威胁3.1AI模型安全性问题3.2.1模型训练完整性威胁
AI模型的决策与判断能力来源于对海量数据的训练和学习过程。因此,数据是模型训练过程中一个非常重要的部分,模型训练数据的全面性、无偏性、纯净性很大程度上影响了模型判断的准确率。一般来说,一个全面的、无偏的、纯净的大规模训练数据可以使模型很好地拟合数据集中的信息,学习到近似于人类甚至超越人类的决策与判断能力。例如:ImageNet数据集使AI模型在图像分类任务中取得的准确率超越了人类感官判断。但是,如果训练数据受到攻击者的恶意篡改,那么模型将学习到错误的预测能力。例如:在分类模型中,攻击者通过篡改训练数据集中特定样本的标签,导致模型测试阶段针对这些样本输出攻击者指定的标签。这类由数据全面性、无偏性、纯净性引起的安全威胁本质上破坏了模型的训练过程,使模型无法学习到完整的决策、判别能力。因此,在本文中,我们也将这类由数据引起的威胁归为破坏模型训练完整性的威胁。破坏模型训练完整性的攻击主要为数据投毒攻击[1],根据投毒的方法与类型,投毒攻击又可以进一步分为目标固定攻击与后门攻击。接下来,我们将简单介绍投毒攻击、目标固定投毒攻击与后门攻击。
数据投毒攻击数据投毒攻击指攻击者通过在模型的训练集中加入少量精心构造的毒化数据,使模型在测试阶段无法正常使用或协助攻击者在没有破坏模型准确率的情况下入侵模型。前者破坏模型的可用性,为无目标攻击;后者破坏模型的完整性,为有目标攻击。数据投毒攻击最早由Dalvi等人在文献[1]中提出,他们利用该攻击来逃避垃圾邮件分类器的检测。后来,相关研究人员相继在贝叶斯分类器[40]和支持向量机[41]等机器学习模型中实现了数据投毒攻击。破坏完整性的投毒攻击具有很强的隐蔽性:被投毒的模型对干净数据表现出正常的预测能力,只对攻击者选择的目标数据输出错误结果。这种使AI模型在特定数据上输出指定错误结果的攻击会导致巨大的危害,在某些关键的场景中会造成严重的安全事故。因此,我们在本文中对投毒攻击进行了深入的分析探索,希望这部分内容对读者有所启发。根据攻击者在对毒化模型进行测试时是否修改目标数据,可以将这类攻击分为:目标固定攻击和后门攻击。
目标固定攻击是投毒攻击的一种。在这类攻击中,攻击者在模型的正常训练集Dc=(Xc,Yc)中加入精心构造的毒化数据Dp=(Xp,Yp),使得毒化后的模型将攻击者选定的数据xs分类到目标类别yt,而不影响模型在正常测试集的准确率。构造毒化数据Dp的过程可以看作是一个双层优化的问题。其中,外层优化得到毒化数据Xp∗表示如下:
其中Ladv表示攻击者攻击成功的损失,θ∗表示在Xc∪Xp上训练得到的毒化模型,内层优化得到毒化模型θ∗表示如下:
可以看到目标梯度∇XpLadv同时由内外层损失函数决定。由于AI模型的目标函数是非凸化函数,上述的双层优化问题无法直接求解。
后门攻击在这类攻击中,攻击者在模型的正常训练集Dc=(Xc,Yc)中加入精心构造的毒化数据集Dp=(Xp,Yp),使得毒化后的模型将加入攻击者选定的后门触发器(BackdoorTrigger)的数据分类到攻击者的目标类别yt,而不影响模型的正常性能。以图像分类为例,攻击者在测试阶段在原图片xi上添加一个具体的图案或扰动作为后门触发器∆,具体的过程如下所示:其中,⊙表示元素积,m代表图像掩码。m的大小与xi和∆一致,值为1表示图像像素由对应位置∆的像素取代,而0则表示对应位置的图像像素保持不变。攻击者发动后门攻击的目标可以表示为下式:
其中,X表示模型输入空间的所有数据,θ∗表示受害者使用毒化后的数据训练得到的模型参数,训练过程的目标函数如下式所示:
其中,f代表模型结构,θ代表模型参数,ℓ代表损失函数。上式可以看作是多任务学习(Multi-taskLearning)。第一项代表模型在正常任务上的损失函数,这与Dc有关;第二项代表攻击者想要模型额外训练的后门任务上的损失函数,而这取决于Dp。所以后门攻击的关键在于构造合适的Dp,在经过受害者的训练后门任务后,达到目标。
3.2.2模型训练完整性威胁模型测试阶段是指模型训练完成之后,模型参数被全部固定,模型输入测试样本并输出预测结果的过程。在没有任何干扰的情况下,AI模型的准确率超乎人们的想象,在ImageNet图像分类任务中,识别准确率已经超过了人类。但是,近些年来的研究表明:在模型测试阶段,AI模型容易受到测试样本的欺骗从而输出不可预计的结果,甚至被攻击者操纵。我们将这类威胁AI模型测试阶段正确性的问题定义为测试完整性威胁。对抗攻击与伪造攻击(AdversarialAttackorEvasionAttack)是破坏模型测试完整性的典型威胁,本章重点关注对抗攻击与伪造攻击。
对抗攻击 对抗攻击是指利用对抗样本对模型进行欺骗的恶意行为。对抗样本是指在数据集中通过故意添加细微的干扰所形成的恶意输入样本,在不引起人们注意的情况下,可以轻易导致机器学习模型输出错误预测。误判既包括单纯造成模型决策出现错误的无目标攻击,也包括受到攻击者操纵导致定向决策的有目标攻击。对抗攻击最早由Szegedy等人提出,他们在最基本的图像分类任务中,向分类图像的像素中加入微小的扰动,使得分类模型的准确率严重下降,同时对抗样本具有很强的隐蔽性,攻击者做出的修改往往并不会引起人们的察觉。这类威胁来自于AI模型算法本身的缺陷,广泛存在于AI技术应用的各个领域之中,一旦被攻击者利用会造成严重的安全危害。例如:在自动驾驶中,对交通标志的误识别会造成无人汽车做出错误决策引发安全事故。对抗样本的发现严重阻碍着AI技术的广泛应用与发展,尤其是对于安全要求严格的领域。因此,近些年来对抗攻击以及其防御技术吸引了越来越多的目光,成为了研究的一大热点,涌现出大量的学术研究成果。对抗攻击原理与威胁模型对抗攻击的基本原理就是对正常的样本添加一定的扰动从而使得模型出现误判。以最基本的图像分类任务为例,攻击者拥有若干数据{xi,yi}Ni=1,其中xi代表数据集中的一个样本也就是一张图像,yi则是其对应的正确类别,N为数据集的样本数量。将用于分类的目标模型表示为f(.),则f(x)表示样本x输入模型得到的分类结果。攻击者应用对抗攻击的方法对正常样本x进行修改得到对应的对抗样本x′,该对抗样本可以造成模型出现误判,同时其与原样本的应该较为接近具有同样的语义信息,一般性定义如下:
其中∥.∥D代表着对抗样本与原样本之间的某种距离度量,为了使修改的样本能够保持语义信息不造成人类的察觉,两者之间的距离应该足够小,同时造成最后模型判断出现错误,分类结果不同于正确类别,而ϵ就是对抗样本与原样本之间设定的最大距离,其取值往往和具体的应用场景有关。
根据攻击意图,对抗攻击可以分为有目标攻击和无目标攻击。以上的一般定义属于无目标攻击,即经过修改的样本只要造成错误使得分类标签与原标签不同即可;有目标攻击是指攻击者根据需要对样本进行修改,使得模型的分类结果变为指定的类别t,定义如下:
根据攻击者所能获取的信息,对抗攻击可以分为黑盒攻击和白盒攻击。黑盒攻击是指攻击者在不知道目标模型的结构或者参数的情况下进行攻击,但是攻击者可以向模型查询特定的输入并获取预测结果;白盒攻击是指攻击者可以获取目标模型fθ(.)的全部信息,其中θ代表模型的具体参数,用于实施有针对性的攻击算法。一般情况下,由于白盒攻击能够获取更多与模型有关的信息,其攻击性能要明显强于对应的黑盒攻击。以上我们对攻击的主要目标与攻击设置进行了简要的介绍,在不同设置下各种攻击具有不同的特点,主流的攻击技术可以分为基于扰动的对抗攻击和非限制对抗攻击。
基于扰动的对抗攻击最初的对抗攻击算法主要是基于扰动的对抗攻击,这类攻击在图像分类任务上被广泛研究,也是最主要的攻击类型。这类攻击的主要思想就是在输入样本中加入微小的扰动,从而导致AI模型输出误判。以图像分类任务为例,攻击者可以对输入图像的像素添加轻微扰动,使对抗样本在人类看来是一幅带有噪声的图像。考虑到攻击的隐蔽性,攻击者会对这些扰动的大小进行限制从而避免人类的察觉。已有的研究通常基于扰动的范数大小ℓp度量样本之间距离
其中xi、x′i分别指正常样本和对抗样本在第i处的特征,在图像任务中为对应位置的像素值。目前对抗攻击算法的主要思想是将生成对抗样本的过程看做一个优化问题的求解。接下来我们首先介绍几种白盒对抗攻击算法,之后介绍一些针对防御技术的攻击增强算法,最后给出几种针对黑盒模型的攻击方法。
伪造攻击伪造攻击是向生物识别系统提交伪造信息以通过身份验证的一种攻击方式[32],是一种AI测试完整性威胁。生物验证技术包括指纹核身、面容核身、声纹核身、眼纹核身、掌纹核身等等。以声纹核身为例,攻击者有很多种方法来进行伪造攻击声纹识别系统、声纹支付系统、声纹解锁系统等。例如:攻击者对声纹解锁系统播放一段事先录制或者人工合成的解锁音频通过验证。在这类音频伪造攻击中,攻击者可以通过手机等数码设备直接录制目标人物的解锁音频,也可以通过社交网络检索目标账号获取解锁音频。甚至,攻击者可以从目标人物的多个音频中裁剪合成解锁音频,或者通过深度语音合成技术来合成目标人物的解锁音频。
3.2AI数据与隐私安全性问题由于AI技术使用过程中产生的模型梯度更新、输出特征向量以及预测结果与输入数据、模型结构息息相关,因此AI模型产生的计算信息面临着潜在的隐私数据泄露、模型参数泄露风险。
3.2.1 基于模型输出的数据泄露在AI模型测试阶段,AI模型参数被固定住,测试数据输入模型并输出特征向量、预测结果等信息。例如:在图像分类任务中,模型的输出包含卷积层输出的特征向量、Softmax层输出的预测概率向量等。近些年来研究结果表明,模型的输出结果会隐含一定的数据信息。攻击者可以利用模型输出在一定程度上窃取相关数据,主要可以窃取两类数据信息:1)模型自身的参数数据;2)训练/测试数据。
模型窃取模型窃取攻击(ModelExtractionAttack)是一类隐私数据窃取攻击,攻击者通过向黑盒模型进行查询获取相应结果,窃取黑盒模型的参数或者对应功能。被窃取的模型往往是拥有者花费大量的金钱时间构建而成的,对拥有者来说具有巨大的商业价值。一旦模型的信息遭到泄露,攻击者就能逃避付费或者开辟第三方服务,从而获取商业利益,使模型拥有者的权益受到损害。如果模型遭到窃取,攻击者可以进一步部署白盒对抗攻击来欺骗在线模型,这时模型的泄露会大大增加攻击的成功率,造成严重的安全风险。
目前,大多数AI技术供应商将AI应用部署于云端服务器,通过API来为客户端提供付费查询服务。客户仅能通过定义好的API向模型输入查询样本,并获取模型对样本的预测结果。然而即使攻击者仅能通过API接口输入请求数据,获取输出的预测结果,也能在一定情况下通过查询接口来窃取服务端的模型结构和参数。模型窃取攻击主要可以分为三类:1)Equation-solvingAttack;2)基于Meta-model的模型窃取;3)基于替代模型的模型窃取。
Equation-solvingAttack是一类主要针对支持向量机(SVM)等传统的机器学习方法的模型窃取攻击。攻击者可以先获取模型的算法、结构等相关信息,然后构建公式方程来根据查询返回结果求解模型参数[7]。在此基础之上还可以窃取传统算法中的超参数,例如:损失函数中loss项和regularization项的权重参数[73]、KNN中的K值等。Equation-solvingAttack需要攻击者了解目标算法的类型、结构、训练数据集等信息,无法应用于复杂的神经网络模型。
基于Meta-model模型窃取的主要思想是通过训练一个额外的MetaModelΦ(·)来预测目标模型的指定属性信息。MetaModel的输入样本是所预测模型在任务数据x上的输出结果f(x),输出的内容Φ(f(x))则是预测目标模型的相关属性,例如网络层数、激活函数类型等。因此为了训练MetaModel,攻击者需要自行收集与目标模型具有相同功能的多种模型fi(·),获取它们在相应数据集上的输出,构建MetaModel的训练集。然而构建MetaModel的训练集需要多样的任务相关模型,对计算资源的要求过高,因此该类攻击并不是非常实用,而作者也仅在MNIST数字识别任务上做了实验[34]。
基于替代模型训练的是目前比较实用的一类模型窃取攻击。攻击者在未知目标模型结构的情况下向目标模型查询样本,得到目标模型的预测结果,并以这些预测结果对查询数据进行标注构建训练数据集,在本地训练一个与目标模型任务相同的替代模型,当经过大量训练之后,该模型就具有和目标模型相近的性质。一般来说,攻击者会选取VGG、ResNet等具有较强的拟合性的深度学习模型作为替代模型结构[35]。基于替代模型的窃取攻击与Equation-solvingAttack的区别在于,攻击者对于目标模型的具体结构并不了解,训练替代模型也不是为了获取目标模型的具体参数,而只是利用替代模型去拟合目标模型的功能。为了拟合目标模型的功能,替代模型需要向目标模型查询大量的样本来构建训练数据集,然而攻击者往往缺少充足的相关数据,并且异常的大量查询不仅会增加窃取成本,更有可能会被模型拥有者检测出来。为了解决上述问题,避免过多地向目标模型查询,使训练过程更为高效,研究者提出对查询的数据集进行数据增强,使得这些数据样本能够更好地捕捉目标模型的特点[8],例如:利用替代模型生成相应的对抗样本以扩充训练集,研究认为对抗样本往往会位于模型的决策边界上,这使得替代模型能够更好地模拟目标模型的决策行为[54,74]。除了进行数据增强,还有研究表明使用与目标模型任务无关的其它数据构建数据集也可以取得可观的攻击效果,这些工作同时给出了任务相关数据与无关数据的选取组合策略[75,35]。
隐私泄露机器学习模型的预测结果往往包含了模型对于该样本的诸多推理信息。在不同的学习任务中,这些预测结果往往包含了不同的含义。例如:图像分类任务中,模型输出的是一个向量,其中每一个向量分量表示测试样本为该种类的概率。最近的研究结果证明,这些黑盒的输出结果可以用来窃取模型训练数据的信息。例如:Fredrikson等人提出的模型逆向攻击(ModelInversionAttack)[6]可以利用黑盒模型输出中的置信度向量等信息将训练集中的数据恢复出来。他们针对常用的面部识别模型,包括Softmax回归,多层感知机和自编码器网络实施模型逆向攻击。他们认为模型输出的置信度向量包含了输入数据的信息,也可以作为输入数据恢复攻击的衡量标准。他们将模型逆向攻击问题转变为一个优化问题,优化目标为使得逆向数据的输出向量与目标输出向量差异尽可能地小,也就是说,假如攻击者获得了属于某一类别的输出向量,那么他可以利用梯度下降的方法使得逆向的数据经过目标模型的推断后,仍然能得到同样的输出向量。
成员推断攻击(Membership-InferenceAttack)是一种更加容易实现的攻击类型,它是指攻击者将试图推断某个待测样本是否存在于目标模型的训练数据集中,从而获得待测样本的成员关系信息。比如攻击者希望知道某个人的数据是否存在于某个公司的医疗诊断模型的训练数据集中,如果存在,那么我们可以推断出该个体的隐私信息。我们将目标模型训练集中的数据称为成员数据(MemberData),而不在训练集中的数据称为非成员数据(Non-memberData)。同时由于攻击者往往不可能掌握目标模型,因此攻击者只能实施黑盒场景下的成员推断攻击。成员推断攻击是近两年来新兴的一个研究课题,这种攻击可以用于医疗诊断、基因测试等应用场景,对用户的隐私数据提出了挑战,同时关于这种攻击技术的深入发展及其相关防御技术的探讨也成为了一个新的研究热点。
3.2.2基于梯度更新的数据泄露梯度更新是指模型对参数进行优化时,模型参数会根据计算产生的梯度来进行更新,也就是训练中不断产生的梯度信息。梯度更新的交换往往只出现在分布式模型训练中,拥有不同私有数据的多方主体每一轮仅使用自己的数据来更新模型,随后对模型参数的更新进行聚合,分布式地完成统一模型的训练,在这个过程中,中心服务器和每个参与主体都不会获得其它主体的数据信息。然而即便是在原始数据获得良好保护的情况下,参与主体的私有数据仍存在泄漏的可能性。
模型梯度更新会导致隐私泄露.尽管模型在训练的过程中已经使用了很多方法在防止原始数据泄露,在多方分布式的AI模型训练中,个体往往会使用自己的数据对当前的模型进行训练,并将模型的参数更新传递给其它个体或者中心服务器。在最近机器学习和信息安全的国际会议上,研究人员提出了一些利用模型参数更新来获取他人训练数据信息的攻击研究。Melis等人[36]利用训练过程中其它用户更新的模型参数作为输入特征,训练攻击模型,用于推测其它用户数据集的相关属性;[37,38]等人利用对抗生成网络生成恢复其它用户的训练数据,在多方协作训练过程中,利用公共模型作为判别器,将模型参数更新作为输入数据训练生成器,最终可以获取受害者特定类别的训练数据。在最近的一项工作中[39],研究人员并未使用GAN等生成模型,而是基于优化算法对模拟图片的像素进行调整,使得其在公共模型上反向传播得到的梯度和真实梯度相近,经过多轮的优化模拟图片会慢慢接近真实的训练数据。
3.3AI系统安全性问题AI系统安全性问题与传统计算机安全领域中的安全问题相似,威胁着AI技术的保密性、完整性和可用性。AI系统安全问题主要分为两类:1)硬件设备安全问题,主要指数据采集存储、信息处理、应用运行相关的计算机硬件设备被攻击者攻击破解,例如芯片、存储媒介等;2)系统与软件安全问题,主要指承载AI技术的各类计算机软件中存在的漏洞和缺陷,例如:承载技术的操作系统、软件框架和第三方库等。
3.3.1 硬件设备安全问题硬件设备安全问题指AI技术当中使用的基础物理设备被恶意攻击导致的安全问题。物理设备是AI技术构建的基础,包含了中心计算设备、数据采集设备等基础设施。攻击者一旦能够直接接触相应的硬件设备,就能够伪造和窃取数据,破坏整个系统的完整性。例如:劫持数据采集设备,攻击者可以通过root等方式取得手机摄像头的控制权限,当手机应用调用摄像头的时候,攻击者可以直接将虚假的图片或视频注入相关应用,此时手机应用采集到的并不是真实的画面,使人工智能系统被欺骗;侧信道攻击,指的是针对加密电子设备在运行过程中的时间消耗、功率消耗或电磁辐射之类的侧信道信息泄露而对加密设备进行攻击的方法,这种攻击可以被用来窃取运行在服务器上的AI模型信息[54]。
3.3.2 系统与软件安全问题系统与软件安全问题是指承载AI应用的各类系统软件漏洞导致的安全问题。AI技术从算法到实现是存在距离的,在算法层面上开发人员更关注如何提升模型本身性能和鲁棒性。然而强健的算法不代表着AI应用安全无虞,在AI应用过程中同样会面临软件层面的安全漏洞威胁,如果忽略了这些漏洞,则可能会导致关键数据篡改、模型误判、系统崩溃或被劫持控制流等严重后果。
以机器学习框架为例,开发人员可以通过Tensorflow、PyTorch等机器学习软件框架直接构建AI模型,并使用相应的接口对模型进行各种操作,无需关心AI模型的实现细节。然而不能忽略的是,机器学习框架掩盖了AI技术实现的底层复杂结构,机器学习框架是建立在众多的基础库和组件之上的,例如Tensorflow、Caffe、PyTorch等框需要依赖Numpy、libopencv、librosa等数十个第三方动态库或Python模块。这些组件之间存在着复杂的依赖关系。框架中任意一个依赖组件存在的安全漏洞,都会威胁到整个框架以及其所支撑的应用系统。
研究表明在这些深度学习框架及其依赖库中存在的软件漏洞几乎包含了所有常见的类型,如堆溢出、释放对象后引用、内存访问越界、整数溢出、除零异常等漏洞,这些潜在的危害会导致深度学习应用受到拒绝服务、控制流劫持、数据篡改等恶意攻击的影响[15]。例如:360TeamSeriOus团队曾发现由于Numpy库中某个模块没有对输入进行严格检查,特定的输入样本会导致程序对空列表的使用,最后令程序陷入无限循环,引起拒绝服务的问题。而在使用Caffe依赖的libjasper视觉库进行图像识别处理时,某些畸形的图片输入可能会引起内存越界,并导致程序崩溃或者关键数据(如参数、标签等)篡改等问题[82]。另外,由于GPU设备缺乏安全保护措施,拷贝数据到显存和GPU上的运算均不做越界检查,使用的显存在运行结束后仍然存在,这都需要用户手动处理,如果程序中缺乏相关处理的措施,则可能存在内存溢出的风险[83]。
四、AI威胁常用防御技术系统性地总结了AI模型、AI数据以及AI承载系统面临的威胁。AI模型面临的威胁包括:训练阶段的投毒与后门攻击、测试阶段的对抗攻击以及AI模型本身存在的鲁棒性缺失问题;AI数据面临的威胁包括:利用模型查询结果的模型逆向攻击、成员推断攻击和模型窃取攻击,以及在训练阶段利用模型参数更新进行的训练数据窃取攻击;AI承载系统面临的威胁包括:软件漏洞威胁和硬件设备安全问题等。
AI模型训练阶段主要存在的威胁是数据投毒攻击,它可以非常隐蔽地破坏模型的完整性。近些年来,研究者们提出了多种针对数据投毒攻击的防御方法。由于传统意义上的有目标的数据投毒攻击可以看作是后门攻击的一种特殊情况,因此后续章节将主要阐述针对后门攻击的防御方法。根据防御技术的部署场景,这些方法可以分为两类,分别是面向训练数据的防御和面向模型的防御。面向训练数据的防御部署在模型训练数据集上,适用于训练数据的来源不被信任的场景;面向模型的防御主要应用于检测预训练模型是否被毒化,若被毒化则尝试修复模型中被毒化的部分,这适用于模型中可能已经存在投毒攻击的场景。
AI模型在预测阶段主要存在的威胁为对抗样本攻击。近些年来,研究者们提出了多种对抗样本防御技术,这些技术被称为对抗防御(AdversarialDefense)。对抗防御可以分为启发式防御和可证明式防御两类。启发式防御算法对一些特定的对抗攻击具有良好的防御性能,但其防御性能没有理论性的保障,意味着启发式防御技术在未来很有可能被击破。可证明式防御通过理论证明,计算出特定对抗攻击下模型的最低准确度,即在理论上保证模型面对攻击时性能的下界。但目前的可证明式防御方法很难在大规模数据集上应用,我们将其作为模型安全性测试的一部分放在之后的章节阐述。本节主要阐述部分具有代表性的启发式防御技术,根据防御算法的作用目标不同分为三类:分别是对抗训练、输入预处理以及特异性防御算法。对抗训练通过将对抗样本纳入训练阶段来提高深度学习网络主动防御对抗样本的能力;输入预处理技术通过对输入数据进行恰当的预处理,消除输入数据中可能的对抗性扰动,从而达到净化输入数据的功能;其他特异性防御算法通过修改现有的网络结构或算法来达到防御对抗攻击的目的。
除了训练与预测阶段存在的威胁,AI模型还存在鲁棒性缺乏风险。鲁棒性缺乏是指模型在面对多变的真实场景时泛化能力有限,导致模型产生不可预测的误判行为。为了增强AI模型的鲁棒性,提高模型的泛化能力,增强现实场景下模型应对多变环境因素时模型的稳定性,研究人员提出了数据增强和可解释性增强技术:数据增强技术的目标是加强数据的收集力度并增强训练数据中环境因素的多样性,使模型能够尽可能多地学习到各种真实场景下的样本特征,进而增强模型对多变环境的适应性;可解释性增强技术的目标是解释模型是如何进行决策的以及为何模型能够拥有较好的性能。若能较好地解答上述问题,将有助于在AI模型构建过程中依据可解释性的指导,有针对性地对模型进行调整,从而增强其泛化能力。
表4.1:防御方法概括
威胁类型
防御种类
防御方法
针对具体攻击
频谱分析法
标签翻转攻击
面向训练数据的防御
激活值聚类法
标签翻转攻击
强扰动输入
常规后门攻击
数据投毒威胁
网络裁剪法
常规后门攻击
面向模型防御
后门逆向法
模式连通法
基于图案触发器的攻击
常规后门攻击
ULP
常规后门攻击
FGSM对抗训练
FGSM对抗攻击
PGD对抗训练
常规对抗攻击
对抗训练
集成对抗训练
黑盒对抗攻击
Logits对抗训练
常规对抗攻击
对抗样本威胁
生成对抗训练
常规对抗攻击
输入预处理防御
输入变换法
输入清理法
灰盒、黑盒攻击
灰盒、黑盒攻击
防御性蒸馏法
FGSM对抗攻击
特异性防御算法
特征剪枝法
黑盒攻击与常规攻击
随机算法
黑盒攻击与常规攻击
模型结构防御
模型泛化法
目标优化法
模型窃取、成员推断攻击
成员推断攻击
截断混淆法
模型窃取、成员推断攻击
数据隐私威胁
信息混淆防御
噪声混淆法
成员推断攻击
查询控制防御
样本特征检测法
用户行为检测法
模型窃取、成员推断攻击
成员推断攻击
五、AI 应用系统一站式安全解决方案AI技术已经是许多业务系统的核心驱动力,如苹果Siri、微软小冰都依赖智能语音识别模型,谷歌照片利用图像识别技术快速识别图像中的人、动物、风景和地点。然而正如《人工智能安全》[149]一书中提到,新技术必然会带来新的安全问题,一方面是其自身的脆弱性会导致新技术系统不稳定或者不安全的情况,这是新技术的内在安全问题,一方面是新技术会给其他领域带来新的问题,导致其他领域不安全,这是新技术的衍生安全问题。近年来学术界和工业界针对AI应用系统的攻击案例此起彼伏,例如腾讯攻破了特斯拉的自动驾驶系统、百度攻破了公有云上的图像识别系统、Facebook和Google掀起了反DeepFake浪潮。
本文第3章介绍了AI系统是可能面临的包括对抗样本攻击、投毒攻击和供应链攻击等各类威胁,同时本文第4章也给出了面向各类AI威胁的防御技术。但在实际场景中,AI系统遇到的威胁往往十分复杂,仅靠单一的防御技术无法有效抵御实际威胁。因此在本章节,我们先回顾国内外大厂采用的AI安全解决方案,然后再从这些方案中提炼出一套涵盖面更广泛的AI安全解决方案。
5.1行业介绍•百度.百度是国内最早研究AI模型安全性问题的公司之一。当前百度建立了一套可衡量深度神经网络在物理世界中鲁棒性的标准化框架。事实上,物理世界中使用的模型往往与人们的衣食住行相关(如无人自动驾驶、医疗自动诊断等),这些模型一旦出现问题,后果将非常严重。因此,该框架首先基于现实世界的正常扰动定义了可能出现威胁的五大安全属性,分别是光照、空间变换、模糊、噪声和天气变化;然后,针对不同的模型任务场景,制定不同的评估标准,如非定向分类错误、目标类别错误分类到评估者设定的类别等标准;最后,对于不同安全属性扰动带来的威胁,该框架采用了图像领域中广为接受的最小扰动的Lp范数来量化威胁严重性以及模型鲁棒性。
•腾讯.腾讯公司针对AI落地过程中面临的各类安全问题进行了细致的划分,具体分为AI软硬件安全、AI算法安全、模型安全、AI数据安全和数据隐私等部分。软硬件安全主要是考虑到部署AI模型的软件和硬件层面可能存在的安全漏洞,如内存溢出、摄像头劫持等问题;AI算法安全主要考虑深度学习存在对抗样本的问题,容易出现错误的预测结果;模型本身的安全则涉及到模型窃取,这一问题目前实现方式比较多,常见的方法是直接物理接触下载模型并逆向获取模型参数,以及通过多次查询来拟合“影子”模型实现等价窃取;此外,模型的训练数据也会被污染,开源的预训练模型可能被恶意埋入后门,这些问题都被划分为AI模型的数据安全问题;当然,模型训练使用的数据集也会涉及用户的隐私,因此攻击者可能也会通过查询获取用户隐私。为了缓解这些问题,腾讯安全团队借助AI能力,针对性地构建了多种攻击检测技术。
•华为.华为公司同样对AI安全问题展开了深入的研究,其将AI系统面临的挑战分为5个部分,包括软硬件的安全、数据完整性、模型保密性、模型鲁棒性和数据隐私。其中,软硬件的安全涉及应用、模型、平台、芯片和编码中可能存在的漏洞或后门;数据完整性主要涉及各类数据投毒攻击;模型保密性则主要涉及到模型的窃取问题;模型鲁棒性考虑训练模型时的样本往往覆盖性不足,使得模型鲁棒性不强,同时模型面对恶意对抗样本攻击时,无法给出正确的判断结果等问题;数据隐私考虑在用户提供训练数据的场景下,攻击者能够通过反复查询训练好的模型获得用户的隐私信息。
为了应对这些挑战,华为主要考虑三个层次的防御手段:攻防安全、模型安全和架构安全。其中,攻防安全考虑针对已知的攻击手段,设计针对性的防御机制来保护AI系统,经典的防御技术包括对抗训练、知识蒸馏、对抗样本检测、训练数据过滤、集成模型、模型剪枝等。而针对模型本身存在的安全问题,考虑包括模型可检测性、可验证性和可解释性等技术,以提升模型应对未知攻击的能力。在业务中实际使用AI模型,需要结合业务自身特点,分析判断AI模型架构安全,综合利用隔离、检测、熔断和冗余等安全机制设计AI安全架构与部署方案,增强业务产品、业务流程与业务功能的健壮性。
•RealAI.RealAI是一家专注于从根本上增强AI的可靠性、可信性以及安全性的创业公司。该公司通过黑盒和白盒方式,对目标模型进行对抗样本攻击,并通过检测器和去噪器等方式构建模型的AI防火墙;此外,它们也考虑了模型窃取和后门检测等问题。
5.2多维对抗与AISDLAI系统的防御与攻击者的攻击是一个不断演变的攻防对抗过程,攻击者会不断更新攻击手法来突破AI系统的防御。例如以黑产为代表的攻击者,会不断探测AI系统的漏洞,开发新的攻击工具,降低攻击成本来突破AI系统,获得高额的经济收益。
在实际场景中,我们需要从多个视角切入来应对与攻击者之间日益焦灼的对抗战役。一个非常有效的战略就是知己知彼,知彼就是从防御的视角切入,时时刻刻跟踪对手的动向,部署策略模型对各类攻击行为进行监测,对于这类技术我们称之为多维对抗技术,知己就是从评测的视角切入,实时检测AI系统中的漏洞并进行修补,降低攻击面、风险面,对于这类技术我们称之为AI模型安全开发生命周(AISDL),这也是借鉴应用安全领域的SDL理念。
多维对抗多维对抗的核心理念就是把攻防链路进行切面(深度数据化),再充分融合机器智能和专家智能,结合威胁情报,化被动防御为主动攻防,在对手还在尝试阶段就能够发现异常行为,再通过置信度排序和团伙挖掘等进行审理定性、处置,是一个系统化的防御体系。AI模型安全开发生命周期(AISDL)AISDL是从安全角度指导AI模型开发过程的管理模式。AISDL是一个安全保证的过程,它在AI模型开发的所有阶段都引入了安全和隐私的原则。具体来说,AI模型的生命周期包括模型设计、数据与预训练模型准备、模型开发与训练、模型验证与测试、模型部署与上线、模型性能监控、模型下线这七个流程。AISDL通过安全指导这7个模型开发流程,保障模型在其全生命周期中的安全性。
六、总结与展望
人工智能技术已广泛应用于生物核身、自动驾驶、语音识别、自然语言处理和博弈等多种场景。人工智能技术在加速传统行业的智能化变革的同时,其安全性问题也越来越被人们关注。聚焦于人工智能安全问题,本文从AI模型、AI数据和AI承载系统三个角度系统地总结了人工智能技术所面临的威胁,介绍了面对这些威胁的防御手段,并面向工业界给出了安全的人工智能应用一站式解决方案。
人工智能应用在实际部署时面临对抗攻击、数据投毒攻击和模型窃取攻击等多种潜在威胁。在实际应用场景中,多种AI攻击同时存在,我们很难用单一的防御技术来应对现实场景中复杂的威胁。此外,在人工智能的攻防对抗过程中防御是更困难的一方,攻击者可以不断更新攻击技术来突破目前最有效的防御系统,然而新的防御系统却需要考虑现存的所有攻击技术。为了应对实际场景中复杂的威胁以及不断变化的威胁手段,AI安全研究人员更应从人工智能模型的可解释性等理论角度出发,从根本上解决人工智能模型所面临的安全问题。一方面,研究人员在模型的训练阶段可以通过选取或设计本身具有可解释性的模型,为模型增强泛化能力和鲁棒性;另一方面,研究人员要尝试解释模型的工作原理,即在不改变模型本身的情况下探索模型是如何根据输入样本进行决策的。
参考文献[1]NileshN.Dalvi,PedroM.Domingos,Mausam,SumitK.Sanghai,andDeepakVerma.Adversarialclassification.InProceedingsoftheTenthACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining,Seattle,Washington,USA,August22-25,2004,pages99–108,2004.
[2]TianyuGu,BrendanDolan-Gavitt,andSiddharthGarg.Badnets:Iden-tifyingvulnerabilitiesinthemachinelearningmodelsupplychain.CoRR,abs/1708.06733, 2017.
[3]ChristianSzegedy,WojciechZaremba,IlyaSutskever,JoanBruna,DumitruEr-han,IanGoodfellow,andRobFergus.Intriguingpropertiesofneuralnetworks.arXivpreprintarXiv:1312.6199, 2013.
[4]KevinEykholt,IvanEvtimov,EarlenceFernandes,BoLi,AmirRahmati,ChaoweiXiao,AtulPrakash,TadayoshiKohno,andDawnSong.Robustphysical-worldattacksondeeplearningvisualclassification.In2018IEEECon-ferenceonComputerVisionandPattern Recognition, CVPR 2018, Salt LakeCity,UT,USA,June18-22,2018,pages1625–1634.IEEEComputerSociety,2018.
[5]TencentKeenSecurityLab.Experimentalsecurityresearchofteslaautopi-lot,2019.https://keenlab.tencent.com/en/2019/03/29/Tencent-Keen-Security-Lab-Experimental-Security-Research-of-Tesla-Autopilot/.
[6]MattFredrikson,SomeshJha,andThomasRistenpart.Modelinversionattacksthatexploitconfidenceinformationandbasiccountermeasures.InProceedingsofthe22ndACMSIGSACConferenceonComputerandCommunicationsSecurity,Denver,CO,USA,October12-16,2015,pages1322–1333.ACM, 2015.
[7]FlorianTramèr,FanZhang,AriJuels,MichaelK.Reiter,andThomasRisten-part. Stealingmachinelearningmodelsviapredictionapis. In25thUSENIXSecuritySymposium,USENIXSecurity16,Austin,TX,USA,August10-12,2016,pages601–618.USENIXAssociation, 2016.
[8] Nicolas Papernot, Patrick D. McDaniel, Ian J. Goodfellow, SomeshJha,
Z.BerkayCelik,andAnanthramSwami.Practicalblack-boxattacksagainstmachinelearning.InProceedingsofthe2017ACMonAsiaConferenceonComputerandCommunicationsSecurity,AsiaCCS2017,AbuDhabi,UnitedArabEmirates,April2-6,2017,pages506–519.ACM,2017.
[9]BryantChen,WilkaCarvalho,NathalieBaracaldo,HeikoLudwig,BenjaminEdwards,TaesungLee,IanMolloy,andBiplavSrivastava.Detectingbackdoorattacksondeepneuralnetworksbyactivationclustering.InWorkshoponArti-ficialIntelligenceSafety2019co-locatedwiththeThirty-ThirdAAAIConferenceonArtificialIntelligence2019(AAAI-19),Honolulu,Hawaii,January27,2019,volume2301ofCEURWorkshopProceedings.CEUR-WS.org, 2019.
[10]KangLiu,BrendanDolan-Gavitt,andSiddharthGarg.Fine-pruning:Defend-ingagainstbackdooringattacksondeepneuralnetworks.InResearchinAttacks,Intrusions,andDefenses-21stInternationalSymposium, RAID 2018,Herak-lion,Crete,Greece,September10-12,2018,Proceedings,volume11050ofLectureNotesinComputerScience,pages273–294.Springer,2018.
[11]CihangXie,JianyuWang,ZhishuaiZhang,ZhouRen,andAlanL.Yuille.Mit-igatingadversarialeffectsthroughrandomization.In6thInternationalConfer-enceonLearning Representations, ICLR 2018, Vancouver, BC, Canada, April30-May3,2018,Conference Track Proceedings. OpenReview.net, 2018.
[12]RezaShokri,MarcoStronati,CongzhengSong,andVitalyShmatikov.Member-shipinferenceattacksagainstmachinelearningmodels.In2017IEEESympo-siumonSecurityandPrivacy,SP2017,SanJose,CA,USA,May22-26,2017,pages3–18.IEEEComputerSociety,2017.
[13]YuanshunYao,HuiyingLi,HaitaoZheng,andBenY.Zhao.Latentbackdoorattacksondeepneuralnetworks.InProceedingsofthe2019ACMSIGSACConferenceonComputerand Communications Security, CCS 2019, London,UK,November11-15,2019,pages2041–2055,2019.
[14]MahmoodSharif,SrutiBhagavatula,LujoBauer,andMichaelK.Reiter.Acces-sorizetoacrime:Realandstealthyattacksonstate-of-the-artfacerecognition.InProceedingsofthe2016ACMSIGSACConferenceonComputerandCom-municationsSecurity,Vienna,Austria,October24-28,2016,pages1528–1540.
ACM,2016.
[15]QixueXiao,KangLi,DeyueZhang,andWeilinXu.Securityrisksindeeplearningimplementations.In2018IEEESecurityandPrivacyWorkshops,SPWorkshops2018,SanFrancisco,CA,USA,May24,2018,pages123–128. IEEE
ComputerSociety,2018.
[16]ZiqiYang,JiyiZhang,Ee-ChienChang,andZhenkaiLiang.Neuralnetworkin-versioninadversarialsettingviabackgroundknowledgealignment.InLorenzoCavallaro,JohannesKinder,XiaoFengWang,andJonathanKatz,editors,Pro-ceedingsofthe2019ACMSIGSACConferenceon Computer andCommunica-tionsSecurity,CCS2019,London,UK,November11-15,2019,pages 225–240.
ACM,2019.
[17]LuisMuñoz-González,BattistaBiggio,AmbraDemontis,AndreaPaudice,VasinWongrassamee,EmilC.Lupu,andFabioRoli.Towardspoisoningofdeeplearn-ingalgorithmswithback-gradientoptimization.InProceedingsofthe10thACMWorkshoponArtificialIntelligenceandSecurity,AISec@CCS2017,Dallas,TX,USA,November3,2017,pages27–38,2017.
[18]AliShafahi,W.RonnyHuang,MahyarNajibi,OctavianSuciu,ChristophStuder,TudorDumitras,andTomGoldstein.Poisonfrogs!targetedclean-labelpoisoningattacksonneuralnetworks.InAdvancesinNeuralInformationProcessingSystems31:AnnualConferenceonNeuralInformationProcessingSystems 2018, NeurIPS 2018, 3-8 December 2018, Montréal, Canada, pages
6106–6116,2018.
[19]ChenZhu,W.RonnyHuang,HengduoLi,GavinTaylor,ChristophStuder,andTomGoldstein.Transferableclean-labelpoisoningattacksondeepneuralnets.InProceedingsofthe36thInternationalConferenceonMachineLearning,ICML2019,9-15June2019,LongBeach,California,USA,pages7614–7623,2019.
[20]YingqiLiu,ShiqingMa,YousraAafer,Wen-ChuanLee,JuanZhai,WeihangWang,andXiangyuZhang.Trojaningattackonneuralnetworks.In25thAnnualNetworkandDistributedSystemSecuritySymposium,NDSS2018,SanDiego,California,USA,February18-21,2018.
[21]AniruddhaSaha,AkshayvarunSubramanya,andHamedPirsiavash.Hiddentriggerbackdoorattacks.arXivpreprintarXiv:1910.00033,2019.
[22]ShihaoZhao,XingjunMa,XiangZheng,JamesBailey,JingjingChen,andYu-GangJiang.Clean-labelbackdoorattacksonvideorecognitionmodels.CoRR,abs/2003.03030, 2020.
[23]IanJGoodfellow,JonathonShlens,andChristianSzegedy.Explainingandharnessingadversarialexamples.arXivpreprintarXiv:1412.6572,2014.
[24]AlexeyKurakin,IanJ.Goodfellow,andSamyBengio.Adversarialexamplesinthephysicalworld.In5thInternationalConferenceonLearningRepresentations,ICLR2017,Toulon,France,April24-26,2017,WorkshopTrackProceedings.OpenReview.net,2017.
[25]NicholasCarliniandDavidWagner.Towardsevaluatingtherobustnessofneuralnetworks.In2017IEEESymposiumonSecurityandPrivacy(SP),pages39–57.IEEE,2017.
[26]TianhangZheng,ChangyouChen,andKuiRen.Distributionallyadversarialattack.InProceedingsoftheAAAI Conference on Artificial Intelligence, vol-ume33,pages2253–2260,2019.
[27]NicolasPapernot,PatrickD.McDaniel,SomeshJha,MattFredrikson,Z.BerkayCelik,andAnanthramSwami.Thelimitationsofdeeplearninginadversarialsettings.InIEEEEuropeanSymposiumon Security and Privacy, EuroS&P2016,Saarbrücken,Germany,March21-24,2016,pages372–387.IEEE, 2016.
[28]Pin-YuChen,YashSharma,HuanZhang,JinfengYi,andCho-JuiHsieh.EAD:elastic-netattackstodeepneuralnetworksviaadversarialexamples.InSheilaA.McIlraithandKilianQ.Weinberger,editors,ProceedingsoftheThirty-SecondAAAIConferenceonArtificialIntelligence,(AAAI-18),the30thinnovativeApplicationsofArtificialIntelligence(IAAI-18),andthe8thAAAISymposiumonEducationalAdvancesinArtificialIntelligence(EAAI-18),NewOrleans,Louisiana,USA,February2-7,2018,pages10–17.AAAIPress, 2018.
[29]YangSong,RuiShu,NateKushman,andStefanoErmon.Constructingunre-strictedadversarialexampleswithgenerativemodels.InAdvancesinNeuralInformationProcessingSystems31:AnnualConferenceonNeuralInformationProcessing Systems2018, NeurIPS2018, 3-8December 2018, Montréal,Canada,
pages8322–8333,2018.
[30]TomB.Brown,DandelionMané,AurkoRoy,MartínAbadi,andJustinGilmer.Adversarialpatch.CoRR,abs/1712.09665,2017.
人工智能安全国际标准化进展研究
作者简介
张琳琳
中国信息通信研究院安全研究所高级工程师,主要研究方向为国际标准制定、互联网新技术新业务安全评估、数据安全与个人信息保护、监管政策研究等。
王腾
中国信息通信研究院安全研究所工程师,主要研究方向为国际标准制定、互联网新技术新业务安全评估、规划与政策研究等。
论文引用格式:
张琳琳,王腾.人工智能安全国际标准化进展研究[J].信息通信技术与政策,2021,47(11):73-78.
人工智能安全国际标准化进展研究
张琳琳王腾
(中国信息通信研究院安全研究所,北京100191)
摘要:国际标准化工作对人工智能及其产业发展具有基础性、支撑性、引领性的作用,既是推动产业创新发展的关键抓手,也是产业竞争的制高点,其中安全标准是人工智能标准体系的重要组成部分。通过研究人工智能安全领域国际标准化工作现状,针对各国际标准组织在人工智能安全领域标准化工作的特点、关注点以及未来布局方向进行分析,提出我国参与人工智能安全国际标准化工作的建议。
关键词:人工智能技术;人工智能安全;标准化
中图分类号:TP18文献标识码:A
引用格式:张琳琳,王腾.人工智能安全国际标准化进展研究[J].信息通信技术与政策,2021,47(11):73-78.
doi:10.12267/j.issn.2096-5931.2021.11.014
0引言
人工智能作为引领未来的战略性技术,日益成为驱动经济社会各领域从数字化、网络化向智能化加速跃升的重要引擎,对人类文明发展和社会进步产生广泛而深远的影响,但与此同时,人工智能技术的应用也带来了国家安全、社会伦理、网络安全、数据安全、隐私保护、人身安全等风险挑战。世界各主要发达国家纷纷布局人工智能发展战略规划,高度关注人工智能技术应用发展及安全风险防范。人工智能标准化工作有利于促进人工智能产业发展和技术创新,其中安全标准是人工智能标准体系的重要组成部分,ISO/IEC、ITU-T、ETSI、IEEE、NIST等国际标准组织积极推进人工智能安全标准制定,从不同角度逐步完善人工智能安全标准体系,为防范人工智能安全风险、鼓励良性人工智能应用、推动人工智能产业有序健康发展发挥基础性、规范性、指引性作用。
1人工智能安全国际标准研究进展
1.1ISO/IECJTC1
国际标准组织/国际电工委员会的第一联合技术委员会(ISO/IECJTC1)中开展人工智能安全标准化的研究组主要为SC42(人工智能)及SC27(信息安全),工作涉及人工智能安全的标准项目见表1。
表1ISO/IECJTC1人工智能安全标准项目概况
SC42于2017年10月成立,是ISO/IEC中负责人工智能标准的首要制定及管理单位,其下辖的WG3可信赖工作组负责人工智能安全标准制定[1],由于传统信息安全“保密性、完整性、可用性”已难以适应新技术应用领域的安全需求,可信赖的概念在安全领域国际标准工作中日益受到关注和重视,人工智能可信赖的内涵包括可靠性、可用性、弹性、安全性、责任感、透明度、完整性等。当前,SC42可信赖系列标准化工作涵盖人工智能可信赖概述、人工智能安全风险管理、人工智能系统偏见、人工智能系统对人身安全功能实现、神经网络鲁棒性评估、人工智能伦理等相关议题。其中,ISO/IECTR24028概述了人工智能系统可信赖的基本概念,指出人工智能系统的技术脆弱性因素及部分缓解措施,提出评估缓解措施的有效性建议指标;ISO/IEC23894基于通用风险管理指南ISO/IEC31000,提供了人工智能安全风险管理方法,提出风险评估应考虑的因素,并给出风险应对措施建议;ISO/IECTR24027致力于降低人工智能辅助决策系统偏见的影响,并提供了偏见的评估技术和方法;ISO/IECTR5469提出了实现人工智能技术应用中人身安全保护功能的方法;ISO/IECTR24029-1、ISO/IECTR24029-2系列报告系统梳理了现有神经网络鲁棒性评估方法,并为方法的选择、使用和管理提出建议;ISO/IECTR24368提供了人工智能道德和社会问题概述。截至2021年5月,SC42已发布ISO/IECTR24028、ISO/IECTR24029-1两项人工智能安全技术报告,其他标准和技术报告均处于在研状态。
此外,SC27在信息安全领域已开展多年工作,由于人工智能安全与传统的信息系统安全具有相关性,并高度依赖数据和算法,因此SC27前期的基础性信息安全标准、数据安全及隐私保护标准均可为人工智能安全提供参考依据。同时,2021年4月,SC27全会批准立项新标准研究项目“解决人工智能中的安全威胁和故障的指南”,也体现了由于新技术的发展变化,各工作组之间安全标准交叉融合的趋势。
1.2ITU-T
国际电信联盟电信标准化部门(ITU-T)人工智能工作涉及多个研究组,包括SG17(安全研究)、SG5(环境与气候变化)、SG16(多媒体)、SG2(业务提供和电信管理的运营问题)等,涉及人工智能安全的标准项目见表2。
表2ITU-T人工智能安全标准项目概况
作为安全研究组,SG17高度重视人工智能安全标准制定,于2019年1月21日在瑞士日内瓦组织召开人工智能、机器学习和安全研讨会[2],提出人工智能安全是SG17未来重要的标准化方向,SG17应研究各种特定安全和隐私控制的标准差距,解决已确定的威胁和风险,开展标准制定以填补空白。从当前的工作来看,SG17已有3份技术报告在研,涵盖机器学习安全应用、人工智能技术应用安全管理等方面。其中,TR.cs-ml提出基于机器学习的反垃圾邮件技术框架;TR.sgfdcml利用全同态加密技术为机器学习中的安全推理服务和数据聚合提供安全指导。2021年4月,SG17全会通过由我国主导的人工智能安全新立项TR.sec-ai,为人工智能安全技术应用安全管理提供指南。
SG5、SG16、SG2等研究组也部分涉及人工智能安全标准化工作,SG5已发布标准L.1305,提出数据中心基础设施管理系统技术规范,并考虑了人工智能技术在数据中心管理方面应用的安全性;SG16在研项F.Supp-OCAIB,为区块链技术和人工智能技术融合应用安全保护提供建议;SG2在研项目M.AI-TOM,为人工智能增强型电信运营管理系统提出框架指南,并考虑了人工智能安全性等相关问题。
1.3ETSI
欧洲电信标准化协会(ETSI)开展人工智能安全标准化的研究组和委员会主要为行业规范组-保护人工智能(IndustrySpecificationGroup-SecuringArtificialIntelligence,ISG-SAI)、行业规范组-体验性网络智能(IndustrySpecificationGroup-ExperientialNetwokedIntelligence,ISG-ENI)、技术委员会-网络安全(TechnicalCommittee-Cybersecurity,TCCyber),涉及人工智能安全的标准项目见表3。
表3ETSI人工智能安全标准项目概况
ISG-SAI成立于2019年,是ETSI专注于人工智能安全的工作组,围绕人工智能安全问题陈述、威胁分析、数据供应链安全、缓解策略、安全性测试以及人工智能硬件安全6个关键主题开展研究。目前,ISG-SAI已发布2份人工智能安全研究报告,其中ETSIGRSAI004描述了以人工智能为基础的系统安全问题挑战,也提出了一些实际安全应用与攻击案例;ETSIGRSAI005针对ETSIGRSAI004中提出的安全问题挑战提出了一系列缓解措施与指南。后续,ISG-SAI关注的重点议题将包括人工智能数据安全、完整性和隐私性、透明度、可解释性、伦理与滥用、偏见缓解等方面。ISG-ENI、TCCyber等工作组也从各自标准化研究角度关注人工智能安全性。其中,ISG-ENI作为网络运行管理研究组,关注利用人工智能技术提供自动化网络部署的安全性;TCCyber作为网络空间安全技术研究组,主要关注人工智能技术在通用性、基础性网络安全方面的问题挑战。
1.4IEEE
电气与电子工程师协会(IEEE)是较早关注并开展人工智能伦理研究的国际标准组织,在人工智能安全领域主要关注人工智能伦理影响分析与设计、隐私服务、数据治理、可信性、安全风险评估、透明性等方面的标准制定。2015年12月,为了探索与解决人工智能伦理与社会关注的问题,IEEE发起“自主和智能系统伦理全球倡议”(IGEAIS),并分别于2016年、2017年、2019年发布并更新三版《人工智能道德准则设计》[3]。IEEESA(IEEE标准协会)是隶属于IEEE的国际标准工作组织,积极开展人工智能安全领域标准化工作,涉及人工智能安全的标准项目见表4。
表4IEEE人工智能安全标准项目概况
IEEESA建立了人工智能系统(AIS)社区,发布了全球人工智能系统人类福祉计划、人工智能系统应用风险和影响框架等倡议。在相关倡议引导下,IEEESA下辖工作组在安全领域影响力较大的标准工作主要包括IEEEP7000TM系列和P2247TM系列,其中P7000TM系列作为人工智能伦理较为权威的标准,受到人工智能研究人员的长期关注;P2247TM作为深度学习、机器学习等技术要求与评估指南,为医疗、工业、金融等应用场景人工智能应用与产品提出安全指导。IEEESA计算机学会下设的标准化委员会(C/SAB)和软件与系统工程委员会(C/S2ESC)围绕人工智能系统设计阶段伦理、自主系统透明度、算法偏差、数据隐私保护、知识图谱等领域开展标准制定。后续,人工智能系统社区也将关注自动驾驶、智能城市、工业人工智能等领域的安全标准化。
我国在IEEE人工智能安全标准化工作方面取得积极进展:2020年6月,微众银行牵头立项可解释人工智能体系架构标准P2894,对人工智能可解释性的定义、分类、应用场景、性能评估等进行系统性的规范;2019年8月,我国牵头成立IEEE知识图谱标准工作组,由中国电子技术标准化研究院专家担任主席,推动开展P2807知识图谱系列标准制定。
1.5NIST
美国国家标准与技术研究院(NIST)将人工智能作为重点标准领域,于2019年2月发布《关于维持美国在人工智能方面的领导地位的行政命令》(EO13859),呼吁联邦机构加强与人工智能标准相关的知识、领导力和开发或使用人工智能的机构之间的协调,推动人工智能系统可信度的重点研究。NIST下设信息技术实验室(InformationTechnologyLaboratory,ITL),重点关注人工智能系统的安全性和可信性、社会和伦理安全、人工智能技术治理、隐私政策和原则等。NIST涉及人工智能安全的标准项目见表5。此外,2020年NIST发布隐私框架路线图,提出后续应加强对人工智能隐私安全的关注。
表5NIST人工智能安全标准项目概况
2人工智能安全国际标准化进展总结及发展建议
人工智能作为快速发展变化的新技术领域,其安全标准制定需要首先明晰概念术语、提出安全框架、梳理相关场景、提出安全原则等,并在标准中为未来人工智能安全技术产业的发展指引方向,达到标准引领技术进步和产业发展的作用。当前,从各标准化组织工作进展来看,人工智能安全国际标准化工作整体处于初级阶段,标准化的重点方向主要包括基本概念、可信赖框架、评估方法梳理、安全风险分析、伦理安全原则等,并对认知科学、评估测量、车联网应用安全、区块链应用安全等后续人工智能安全潜在重点方向予以铺垫和考虑,具有基础性(基础议题多)、探索性(技术报告多)、前瞻性(铺垫方向多)等特点。
我国高度重视人工智能安全标准化工作,发布了《下一代人工智能发展规划》《国家新一代人工智能标准体系建设指南》等文件,明确了安全标准作为人工智能标准体系的重要组成部分,提出应发挥标准引领作用,保障我国人工智能安全。鉴于我国人工智能技术应用具有一定的国际领先优势,我国应积极参与国际标准化工作,一方面抢占人工智能安全标准化先机,提升我国在人工智能技术应用领域的国际话语权;另一方面保持国内外标准的协调一致,使我国人工智能安全技术产业符合国际标准相关要求,有利于我国人工智能技术和产品的国际输出。
综合考虑国际人工智能安全标准化现状以及我国人工智能技术产业发展特点,针对我国进一步深化人工智能安全领域国际标准化工作,提出两点建议:一是充分发挥我国人工智能技术应用及数据规模优势,结合丰富的应用领域和多样化应用场景,根据企业、高校、研究机构关注侧重点的差异,精确匹配国际上多个标准化组织的重点标准研制方向,有策略地牵头和参与ISO/IEC(总体性标准)、ITU-T(ICT行业相关度较高的标准)、ETSI(地区性应用指导性标准)、IEEE(伦理安全标准)等国际组织的标准化工作,鼓励我国专家在国际标准组织任职及担任国际标准项目编辑,打造兼具专业能力与外语水平的复合型国际标准专家队伍。同时,鉴于人工智能国际标准在国际上具有一定敏感性,在标准化立项和推进过程中要秉承积极协商、灵活应对、推进共识的工作策略,保障国际标准工作的顺利推进。二是紧密跟踪研究国内外人工智能安全标准化工作动态和发展趋势,把握人工智能安全领域国际标准研究态势和重点方向。建立人工智能重点难点标准合作交流机制,借鉴各国在国际标准组织中的工作经验,参考形成我国人工智能安全国际标准化工作推进策略。充分吸收国外人工智能安全领域标准研究成果,借助国际力量丰富和推进我国人工智能安全标准制定,保持国家/行业标准与国际标准之间的协调一致,提高我国标准的先进性、规范性,确保人工智能安全标准能够及时满足人工智能安全保障和新兴技术产业发展的需求。
3结束语
我国人工智能产业规模、核心企业数量仅次于美国,位居全球第二位,覆盖技术平台、产品应用等多个环节,医疗影像、智能语音、智能翻译、自动驾驶等产品已达国际先进水平,智能安防、消费无人机等领域具备国际竞争优势,未来有望发展为全球最大的人工智能市场[4]。同时,由于人工智能技术应用对数据的高度依赖,我国的数据规模优势能够进一步助力人工智能技术应用的发展。高质量标准规范是人工智能得以创新发展的前提,我国人工智能标准领域的组织化建设、标准制修订等方面已经开展大量的工作,具备一定的工作基础[5]。然而,在人工智能等新技术领域国际标准化方面,尚未将有利于我国技术产业发展的规则以标准方式推向国际,并有效融入全球人工智能治理框架。全面了解人工智能安全领域的国际标准化工作态势,有利于我国专家有策略地牵头立项和深度参与国际标准化工作,发挥我国大市场、产业链完备以及数据规模优势,在新技术应用领域提升数字空间的国际影响力。
参考文献
[1]曹晓琦,董建.人工智能国际标准化研究[J].信息技术与标准化,2020(Z1):8-15.
[2]ITU.ITUworkshoponartificialintelligence,machinelearningandsecurity[Z],2019.
[3]孙宁.人工智能伦理与社会关注国际标准研究[J].信息技术与标准化,2020(Z1):27-29+34.
[4]中国信息通信研究院.人工智能核心技术产业白皮书[R],2021.
[5]张斌,鲁路加,王法中.国内人工智能标准化现状综述[J].信息技术与信息化,2020(8):209-211.
Researchontheprogressininternationalstandardizationofartificialintelligencesecurity
ZHANGLinlin,WANGTeng
(InstituteofSecurity,ChinaAcademyofInformationandCommunicationTechnology,Beijing100191,China)
Abstract:Internationalstandardizationplaysafundamental,supportingandleadingroleinartificialintelligenceanditsindustrialdevelopment.Itisnotonlythekeytopromoteindustrialinnovationanddevelopment,butalsothecommandingpointofindustrialcompetition.Amongthem,securitystandardsareanimportantpartofartificialintelligencestandardsystem.Thispaperstudiesandanalyzesthecurrentsituationofinternationalstandardizationworkinthefieldofartificialintelligencesecurity,analyzesandsummarizesthecharacteristics,concernsandfutureresearchdirectionsofthestandardizationworkinthefieldofartificialintelligencesecurityofvariousinternationalstandardsorganizations,andputsforwardsuggestionsforChinatoparticipateintheworkofinternationalstandardsonartificialintelligencesecurity.
Keywords:artificialintelligencetechnology;artificialintelligencesecurity;standardization
本文刊于《信息通信技术与政策》2021年第11期
声明:本文来自信息通信技术与政策,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系anquanneican@163.com。