人工智能安全学习笔记人工智能数据模型安全问题有哪些原因造成的

发表时间：2023-07-06 04:53:29

人工智能安全学习笔记

任何一项新技术的发展与应用都存在相互促进又相互制约两个方面：一方面，技术的发展能带来社会的进步与变革；另一方面，技术的应用要以安全为前提，要受到安全保障机制的制约。

人工智能安全

人工智能安全分为三个子方向：

人工智能助力安全（AIforSecurity）人工智能内生安全（AISecurity）人工智能衍生安全（AISafety）

其中，助力安全体现的是人工智能技术的赋能效应；内生安全和衍生安全体现的是人工智能技术的伴生效应。人工智能系统并不是单纯依托技术而构建，还需要与外部多重约束条件共同作用，以形成完备合规的系统。

人工智能安全的体系架构及外部关联如图1所示。人工智能助力安全

主要表现为助力防御和助力攻击两个方面。

在助力防御方面，防御者正在利用人工智能技术提升和扩展其原有防御方法。

人工智能机器学习模型为积极主动的网络防御带来了新途径。智能模型采用积极主动的方式，而不是传统的被动应对方式；同时，利用人工智能的预测能力和机器学习的进化能力，可以为我们提供抵御复杂网络威胁的手段。本质上来讲，最重要的变化是在网络攻击发生之前就进行预警并采取阻断措施。

麻省理工学院研发的基于人工智能的网络安全平台AI2，用人工智能方法来分析网络攻击情况，帮助网络安全分析师做那些类似“大海捞针”的工作。AI2系统首先利用机器学习技术自主扫描数据和活动，把发现的结果反馈给网络安全分析师。网络安全分析师将会标注哪些是真正的网络攻击活动，并将工程师的反馈纳入AI2系统，从而用于对新日志的自动分析。在测试中，研究小组发现AI2的准确性约为现今所使用的自动分析工具的3倍，大大减少误报的概率。另外，AI2在分析过程中可以不断产生新模型，这意味着它可以快速地改善自己的预测率。系统检测越多的攻击活动，收到来自分析师的反馈越多，相对地可以不断提高未来预测的准确性。据报道，AI2通过超过3.6亿行日志文件的训练，使其可以分析出85%的攻击行为，以便告警可疑行为。

在助力攻击方面，攻击者正在利用人工智能技术突破其原有能力边界。

人工智能可以赋能网络攻击，业内称之为自动化或智能化网络攻击。通过机器人在人完全不干预的情况下，自动化地进行计算机的攻击。近年来连续发生的重大黑客事件，包括核心数据库泄密、数以亿计的账户遭入侵、WannaCry勒索病毒等都具有自动化攻击的特点。通过借助自动化工具，攻击者可以在短时间内，以更高效、更隐蔽的方式对大量不同网站进行漏洞扫描和探测，尤其对于0day/Nday漏洞的全网探测，将会更为频繁和高效。人工智能强大的数据挖掘和分析能力，以及由此带来的智能化服务，经常被黑客组织加以利用，借助于人工智能技术，形成更为拟人化和精密化的自动化攻击趋势，这类机器人模拟真人的行为会更聪明、更大胆，也更难以追踪和溯源。当前，自动化、智能化的网络攻击正在不断让网络安全防线频频失守，而这显然需要引起网络安全行业的足够重视，需要从了解自动化网络攻击行为特点入手，及时采取措施。

人工智能内生安全

人工智能内生安全指的是人工智能系统自身存在脆弱性。脆弱性的成因包含诸多因素，人工智能框架/组件、数据、算法、模型等任一环节都可能给系统引入脆弱性。

在框架/组件方面，难以保证框架和组件实现的正确性和透明性是人工智能的内生安全问题。框架（如TensorFlow、Caffe）是开发人工智能系统的基础环境，相当于人们熟悉的VisualC++的SDK库或Python的基础依赖库，重要性不言而喻。

在数据方面，缺乏对数据正确性的甄别能力是人工智能的内生安全问题。例如，数据的丢失和变形、噪声数据的输入，都会对人工智能系统形成严重的干扰。

在算法方面，难以保证算法的正确性是人工智能的内生安全问题。智能算法存在的安全缺陷一直是人工智能安全中的严重问题。例如，对抗样本就是一种利用算法缺陷实施攻击的技术，自动驾驶汽车的许多安全事故也可归结为由于算法不成熟而导致的。

在模型方面，难以保证模型不被窃取或污染是人工智能的内生安全问题。模型是一个可拷贝、可修改的实体文件，就存在被窃取和被植入后门的安全风险，这就是人工智能模型安全需要研究的问题。

人工智能自身存在着脆弱性，例如对抗样本就是人工智能的内生安全问题。对抗样本是机器学习模型的一个有趣现象，反映出了人工智能算法的弱点。攻击者通过在源数据上增加人类难以通过感官辨识到的细微改变，但是却可以让机器学习模型接受并做出错误的分类决定。一个典型的场景就是图像分类模型的对抗样本，通过在图片上叠加精心构造的变化量，在肉眼难以察觉的情况下，让分类模型产生误判。对抗样本除在图像识别领域存在，也在其他领域存在，如语音、文本等。从网络安全领域看，同样存在类似于对抗样本的攻击问题，攻击者通过对恶意代码插入扰动操作就有可能对人工智能模型产生欺骗。例如，有人就设计了一个恶意样本，让分类器将一个存有恶意行为的软件认定为良性的变体，从而可以构造能自动逃逸PDF恶意软件分类器的攻击方法，以此来对抗机器学习在安全中的应用。上述安全问题都可能会导致同样后果，就是导致人工智能系统发生错误的决策、判断，以及系统被控制等问题。

人工智能衍生安全

人工智能衍生安全指的是人工智能系统因自身脆弱性而导致危及其他领域安全。衍生安全问题主要包括四类：

人工智能系统因存在脆弱性而可被攻击人工智能系统因自身失误引发安全事故人工智能武器研发可能引发国际军备竞赛AIA一旦失控将危及人类安全

人工智能的失误可能会给人类带来灾难，从而会形成衍生安全问题。2016年5月7日，在佛罗里达州公路上一辆处于“自动驾驶”模式的特斯拉ModelS以74英里的时速，撞上了拐弯中的白色拖挂式大货车。ModelS从货车车底穿过，车顶被完全掀飞，40岁的驾驶员JoshuaBrown不幸死亡。出事路段限制时速为65英里/时。由于“自动驾驶”模式车前的高清摄像头为长焦镜头，当白色拖挂卡车进入视觉区域内时，摄像头只能看到悬浮在地面上的卡车中部，而无法看见整个车辆；此外，当时阳光强烈(蓝天白云)，使得自动驾驶系统无法识别出障碍物是一辆卡车，而更像是飘在天上的云，导致自动刹车未生效。这次事故引发了外界对自动驾驶汽车安全性的争议。这种自动驾驶的缺陷导致人类伤亡的事情，是典型的人工智能衍生安全的案例。

《人工智能安全论述》方滨兴1,2,3崔翔2,3顾钊铨2,3方滨兴院士：人工智能安全之我见人工智能安全方滨兴

人工智能安全风险分析与内涵

1、新的攻击威胁：

攻击方法：对抗样本的攻击、数据投毒、模型窃取、人工智能系统攻击

攻击影响：模型的训练、测试和推断过程中均可能遭受攻击；危害数据和模型的机密性、完整性和可用性。

2、人工智能安全隐患

①算法模型安全隐患：算法是人写的，模型也是人写的，都可能有缺陷，有歧视，有黑箱操作的可能。

②数据安全与隐私保护隐患：采集数据、使用数据、存储数据都不同程度的滥用泄露。

③基础设施安全隐患：简单理解，人工智能也得依赖数据库、操作系统、代码。这些就是基础设施，一旦这些基础被黑客控制了，数据就被泄露了。

④应用安全隐患：自动驾驶（黑客远程入侵控制导致撞车）、生物特征识别（小学生用照片成功忽悠人脸识别）、智能音箱等等。

⑤人工智能滥用：利用语音合成技术假扮受害人亲属实施诈骗、人工智能技术破解登录验证码的效果越来越好、且难以防范、利用人工智能技术模仿人类，如换脸、手写伪造、人声伪造、聊天机器人。

3、安全影响：

国家安全影响：人工智能可用于构建新型军事打击力量，对国防安全造成威胁。

社会伦理挑战：智能人工机器人替代人，造成大量失业；人们不去恋爱了，就和机器人恋爱。

人身安全风险：抽象

人工智能安全标准化白皮书（2019版）

网络空间安全

基于计算的学科，涉及技术，人员，信息和流程，可确保在对手的上下文中进行有保证的操作。它涉及安全计算机系统的创建，操作，分析和测试。这是一门跨学科的学习课程，包括法律，政策，人为因素，道德和风险管理等方面。

网络空间安全不仅关注传统信息安全所研究的信息的保密性、完整性和可用性，同时还关注构成网络空间的基础设施的安全和可信，以及网络对现实社会安全的影响。

专业解析：国际上习惯用机密性，完整性和可用性这三个属性（简称CIA）称为安全性的三个要素。凡是在网络空间中，涉及到CIA三个要素之一的内容，都纳入网络空间安全范畴。包括：防止信息被泄密、防止未授权的访问与篡改、防止系统不可用。

网络空间

网络空间是信息环境中一个整体域，它由独立且相互依存的信息基础设施和网络组成。包括了互联网、电信网、计算机系统、嵌入式处理器和控制器系统。

专业解析：专业上通常把遵循ISO/OSI7层协议框架（有时用TCP/IP协议框架）的设备统称为IT(InformationTechnology)设备或系统，例如路由器、服务器、PC，各类应用软件等。如果把整个范围扩大到所有可以连接到网络上的非IT设备系统：包括工业设备系统（OperationTechnology，简称OT设备）如核电站；物联网设备系统（InternetofThings，简称IoT设备）如蓝牙音箱、自动驾驶汽车。这就是网络空间的范围。特点是：海量+万物。

网络安全NetworkSecurity

为防止，检测和监视计算机网络和网络可访问资源的未经授权的访问、滥用、修改或拒绝而采取的策略、过程和做法组成。包含网络设备安全、网络信息安全、网络软件安全。

专业解析：网络安全通常是指遵循ISO7层协议框架（或TCP/IP）的IT设备之间如何保障机密性、完整性和可用性的问题。如：系统被攻击，设备通信时被黑客嗅探获取密码。特点：IT设备。

信息安全

严谨定义：ISO27001定义：保护组织有价值的信息资产机密性、完整性和可用性，而建立的组织、策略与流程。专业解析：企业内部有价值的信息资产包括硬件、软件、服务、人员、数据、无形资产等。如何保护这些资产的机密性、完整性和可用性。例如：防止公司重要数据库服务器被破坏。可能是外部黑客，也可能是内部人员破坏。

数据安全

严谨定义：维基百科：保护数字数据免受破坏力和未经授权用户的有害行为的侵害，例如网络攻击或数据泄露。

专业解析：结构化数据、半结构化数据及非结构化数据在其整个生命周期中的机密性、完整性和可用性的保护。

重要性

进入21世纪，随着信息化建设和IT技术的快速发展，各种网络技术的应用更加广泛深入，同时出现很多网络安全问题，致使网络安全技术的重要性更加突出，网络安全已经成为各国关注的焦点，不仅关系到机构和个人用户的信息资源和资产风险，也关系到国家安全和社会稳定，已成为热门研究和人才需求的新领域。必须在法律、管理、技术、道德各方面采取切实可行的有效措施，才能确保网络建设与应用“又好又快”地稳定发展。

网络空间已经逐步发展成为继陆、海、空、天之后的第五大战略空间，是影响国家安全、社会稳定、经济发展和文化传播的核心、关键和基础。网络空间具有开放性、异构性、移动性、动态性、安全性等特性，不断演化出下一代互联网、5G移动通信网络、移动互联网、物联网等新型网络形式，以及云计算、大数据、社交网络等众多新型的服务模式。

网络安全已经成为世界热门研究课题之一，并引起社会广泛关注。网络安全是个系统工程，已经成为信息化建设和应用的首要任务。网络安全技术涉及法律法规、政策、策略、规范、标准、机制、措施、管理和技术等方面，是网络安全的重要保障。

信息、物资、能源已经成为人类社会赖以生存与发展的三大支柱和重要保障，信息技术的快速发展为人类社会带来了深刻的变革。随着计算机网络技术的快速发展，我国在网络化建设方面取得了令人瞩目的成就，电子银行、电子商务和电子政务的广泛应用，使计算机网络已经深入到国家的政治、经济、文化和国防建设的各个领域，遍布现代信息化社会的工作和生活每个层面，“数字化经济”和全球电子交易一体化正在形成。网络安全不仅关系到国计民生，还与国家安全密切相关，不仅涉及到国家政治、军事和经济各个方面，而且影响到国家的安全和主权。随着信息化和网络技术的广泛应用，网络安全的重要性尤为突出。因此，网络技术中最关键也最容易被忽视的安全问题,正在危及网络的健康发展和应用，网络安全技术及应用越来越受到世界的关注。

jtj2008知道合伙人教育行家https://blog.csdn.net/agiogo/article/details/115861564

张小松团队：人工智能算法安全与安全应用

张小松，电子科技大学教授，博士生导师，主要研究方向为网络安全，2019国家科技进步一等奖和2012国家科技进步二等奖的第一完成人，2020第二届全国创新争先奖和2017网络安全优秀人才奖获得者，四次获得省部技术发明/科技进步一等奖，担任提升政府治理能力大数据应用技术国家工程实验室专家委员会副主任委员，中国电子学会区块链分会副主任委员，国家重点研发计划网络空间安全重点专项首席科学家，发表SCI/EI学术论文139篇，以第一作者出版专著2部，译著2部，以第一发明人获授权国家发明专利42项。

人工智能算法安全与安全应用的相关研究属于网络安全领域。网络安全则是一门内涵在不断发展的伴随学科，任何一项技术的快速发展都会衍生出相应的安全问题，像量子计算、人工智能技术的发展更是会改变传统安全的思维方式。因此，人工智能技术的井喷式发展给网络空间安全领域带来了巨大的挑战与希望。

人工智能带来的希望主要在于：人工智能高效、准确的特点，能显著提升现有网络空间安全的防护能力，能大幅改善防护的实时性，因此，人工智能早已被应用于网络空间安全领域，且在应对部分人类难以解决的问题时，具有巨大的潜力。其带来的挑战在于：人工智能自身也存在数据安全、算法安全、隐私保护等安全问题，另外人工智能算法同样能为攻击者利用。

结合学术界和产业界的总结，人工智能算法安全与安全应用的内涵包括两个方面：

一是从安全的角度审视人工智能算法，认识并应对人工智能算法存在的缺陷，为人工智能算法的应用加上保险；

二是将人工智能算法应用到传统安全领域，提高相关防护方式的实时性、准确性。

《人工智能算法安全与安全应用》（张小松，刘小垒，牛伟纳著.北京：科学出版社，2021.3）一书主要依据作者团队所完成的具体科研项目与科研成果，围绕人工智能网络安全应用以及对人工智能算法自身安全性分析而展开介绍。

本书主要内容共三部分。

▲本书框架

▋第一部分人工智能算法安全与安全应用概述。首先总结人工智能技术的发展近况以及人工智能技术对人类生产生活的重要影响；其次，讨论人工智能算法安全与安全应用的研究范畴，并简要介绍各国对人工智能安全相关研究的重视程度；最后，对全书的脉络进行梳理与归纳。

▋第二部分探讨人工智能算法安全。首先，从人工智能算法鲁棒性的角度介绍针对人工智能模型的攻击方法，包括作者团队提出的多种利用目前人工智能算法鲁棒性缺陷而设计的对抗攻击算法；其次，对人工智能算法的安全性增强方法进行介绍，并对人工智能对抗样本的性质进行探讨；最后，从数据安全的角度介绍数据安全对人工智能算法决策以及对人工智能安全的影响，进而从数据保护、隐私保护的角度介绍几种数据保护方法，并分析近期提出的数据投毒防御方法。

▋第三部分是对网络空间安全问题与人工智能技术结合的总结，分别对主流的漏洞攻击、恶意代码攻击、匿名网络技术和APT技术进行介绍与归纳总结，并结合作者团队的研究经验对近年来人工智能技术与上述网络安全领域结合后的研究现状进行总结和梳理。

2020年6月我出版了《人工智能安全》一书，书中详细描述了人工智能的赋能效应与伴生效应。这期间恰好张小松教授把刚刚写好的《人工智能算法安全与安全应用》书稿给我看，该书确实是让我眼睛一亮。我所主编的《人工智能安全》更多地是从宏观的层面论述人工智能安全的整体面貌，而张小松教授的《人工智能算法安全与安全应用》是对其中的人工智能内生安全和赋能防御两个具体方面进行了深化，从更为深入、更为详尽的角度具体探讨了人工智能内生安全中的算法安全问题，同时还详尽介绍了人工智能赋能防御中的几种应对网络安全的方法，从而深入系统地诠释了人工智能内生安全及人工智能赋能防御的内涵。

该书的精彩之处在于书中融入了张小松团队近年来在相关领域的研究成果，既有理论探讨，也有实验结果分析。书中所介绍的人工智能算法安全性以及人工智能在网络安全防御中的应用是以该团队多年来的相关研究为底蕴，也算是对团队前期工作的一次梳理。

该书能为广大学者在人工智能算法安全性与安全应用研究方面提供帮助，也会促进对人工智能安全性的研究，尤其能为突破内生安全与赋能防御提供新的思路和启迪。

中国工程院院士

2021年1月

本文摘编自《人工智能算法安全与安全应用》（张小松，刘小垒，牛伟纳著.北京：科学出版社，2021.3）一书“第一章绪论”“序”，有删减修改，标题为编者所加。

(前沿信息技术的安全与应用丛书)

ISBN978-7-03-066907-0

责任编辑：张海娜赵微微

（二）人工智能安全问题：《人工智能安全白皮书(2018)》摘要

以下内容摘自《人工智能安全白皮书(2018)》

http://www.caict.ac.cn/kxyj/qwfb/bps/index_1.htm

《人工智能发展白皮书-技术架构篇（2018年）》

《人工智能安全白皮书(2018)》

《2018世界人工智能产业发展蓝皮书》

《电信网络人工智能应用白皮书（2018年）》

《深度学习技术选型白皮书（2018年）》

以下内容摘自《人工智能安全白皮书(2018)》

第一章、人工智能安全内涵与体系架构

（一）人工智能基本概念与发展历程

1、人工智能基本概念

2、人工智能发展历程

（二）人工智能安全内涵

（三）人工智能安全体系架构

1、人工智能安全风险

2、人工智能安全应用

3、人工智能安全管理

第二章、人工智能安全风险分析

（一）网络安全风险

（二）数据安全风险

1、逆向攻击可导致算法模型内部的数据泄露。

2、人工智能技术可加强数据挖掘分析能力，加大隐私泄露风险。

（三）算法安全风险

1、算法设计或实施有误可产生与预期不符甚至伤害性结果。

2、算法潜藏偏见和歧视，导致决策结果可能存在不公。

3、算法黑箱导致人工智能决策不可解释，引发监督审查困境。

4、含有噪声或偏差的训练数据可影响算法模型准确性。

5、对抗样本攻击可诱使算法识别出现误判漏判，产生错误结果。

（四）信息安全风险

1、智能推荐算法可加速不良信息的传播。

2、人工智能技术可制作虚假信息内容，用以实施诈骗等不法活动。

（五）社会安全风险

1、人工智能产业化推进将使部分现有就业岗位减少甚至消失，导致结构性失业。

2、人工智能特别是高度自治系统的安全风险可危及人身安全。

3、人工智能产品和应用会对现有社会伦理道德体系造成冲击。

（六）国家安全风险

1、人工智能可用于影响公众政治意识形态，间接威胁国家安全

2、人工智能可用于构建新型军事打击力量，直接威胁国家安全。

第三章、人工智能安全应用情况

（一）网络信息安全应用

1、网络安全防护应用

2、信息内容安全审查应用

3、数据安全管理应用

（二）社会公共安全应用

1、智能安防应用

2、金融风控应用

第四章、人工智能安全管理现状

（一）主要国家人工智能安全关注重点

1、美国：关注人工智能技术对国家安全的影响。

2、欧盟和英国：关注人工智能对隐私、就业及伦理影响

3、俄罗斯、以色列、印度：重点关注人工智能国防领域应用以及对军事安全影响

4、加拿大、日本、韩国、新加坡：侧重人工智能人才培养、技术研发和产业推进等，对人工智能安全关注较少

（二）主要国家人工智能安全法规政策制定情况

（三）国内外人工智能安全标准规范制定情况

1、IEEE正在开发人工智能伦理道德标准，规范人工智能安全设计。

2、ISO/IEC成立人工智能可信研究组，开展人工智能安全标准研究。

3、我国成立国家人工智能标准化总体组与专家咨询组，加强人工智能安全标准研制工作。

（四）国内外人工智能安全技术手段建设情况

（五）国内外人工智能重点应用的安全评估情况

1、自动驾驶的安全测试验证受到各国高度重视，但未形成统一安全标准和评价体系。

2、工业机器人相关安全标准较为完备，但智能服务机器人安全标准体系和评估能力尚待完善。

（六）国内外人工智能人才队伍建设情况

（七）国内外人工智能产业生态培育情况

五、人工智能安全发展建议

（一）加强自主创新，突破共性关键技术

（二）完善法律法规，制定伦理道德规范

（三）健全监管体系，引导产业健康发展

（四）强化标准引领，构建安全评估体系

（五）促进行业协作，推动技术安全应用

（六）加大人才培养，提升人员就业技能

（七）加强国际交流，应对共有安全风险

（八）加大社会宣传，科学处理安全问题

第一章、人工智能安全内涵与体系架构（一）人工智能基本概念与发展历程1、人工智能基本概念

结合业界专家观点，项目组研究认为，人工智能是利用人为制造来实现智能机器或者机器上的智能系统，模拟、延伸和扩展人类智能，感知环境，获取知识并使用知识获得最佳结果的理论、方法和技术。

2、人工智能发展历程

人工智能自1956年诞生。

以2006年深度学习模型的提出为标志，人工智能核心算法取得重大突破并不断优化。

当前人工智能仍处于弱人工智能阶段，主要是面向特定领域的专用智能。

人工智能可划分为弱人工智能、强人工智能和超人工智能三个阶段。弱人工智能擅长于在特定领域、有限规则内模拟和延伸人的智能；强人工智能具有意识、自我和创新思维，能够进行思考、计划、解决问题、抽象思维、理解复杂理念、快速学习和从经验中学习等人类级别智能的工作；超人工智能是在所有领域都大幅超越人类智能的机器智能。

（二）人工智能安全内涵

人工智能安全内涵包含：

一、降低人工智能不成熟性以及恶意应用给网络空间和国家社会带来的安全风险；

二、推动人工智能在网络安全和公共安全领域深度应用；

三、构建人工智能安全管理体系，保障人工智能安全稳步发展。

（三）人工智能安全体系架构

基于对人工智能安全内涵的理解，项目组提出覆盖安全风险、安全应用、安全管理三个维度的人工智能安全体系架构。

1、人工智能安全风险

人工智能作为战略性与变革性信息技术，给网络空间安全增加了新的不确定性，人工智能网络空间安全风险包括：网络安全风险、数据安全风险、算法安全风险和信息安全风险。

网络安全风险涉及网络设施和学习框架的漏洞、后门安全问题，以及人工智能技术恶意应用导致的系统网络安全风险（破坏网络）。

数据安全风险包括人工智能系统中的训练数据偏差、非授权篡改以及人工智能引发的隐私数据泄露等安全风险（盗用数据）。

算法安全风险对应技术层中算法设计、决策相关的安全问题，涉及算法黑箱、算法模型缺陷等安全风险（每个算法都可能存在安全隐患，只是现在没有发现而已）。

信息安全风险主要包括人工智能技术应用于信息传播以及人工智能产品和应用输出的信息内容安全问题（散播不良信息）。

社会安全风险是指人工智能产业化应用带来的结构性失业、对社会伦理道德的冲击以及可能给个人人身安全带来损害（大部分人失业导致社会不稳定）。

国家安全风险是指人工智能在军事作战、社会舆情等领域应用给国家军事安全和政体安全带来的风险隐患。

2、人工智能安全应用

网络防护应用是指利用人工智能算法开展入侵检测、恶意软件检测、安全态势感知、威胁预警等技术和产品的研发。

数据管理应用是指利用人工智能技术实现对数据分级分类、防泄漏、泄露溯源等数据安全保护目标。

信息审查应用是指利用人工智能技术辅助人类对表现形式多样，数量庞大的网络不良内容进行快速审查。

智能安防应用是指利用人工智能技术推动安防领域从被动防御向主动判断、及时预警的智能化方向发展。

金融风控应用是指利用人工智能技术提升信用评估、风险控制等工作效率和准确度，并协助政府部门进行金融交易监管。

舆情监测应用是指利用人工智能技术加强国家网络舆情监控能力，提升社会治理能力，保障国家安全。

3、人工智能安全管理

法规政策方面，针对人工智能重点应用领域和突出的安全风险，建立健全相应的安全管理法律法规和管理政策。

标准规范方面，加强人工智能安全要求、安全评估评测等方面的国际、国内和行业标准的制定完善工作。

技术手段方面，建设人工智能安全风险监测预警、态势感知、应急处置等安全管理的技术支撑能力。

安全评估方面，加快人工智能安全评估评测指标、方法、工具和平台的研发，构建第三方安全评估评测能力。

人才队伍方面，加大人工智能人才教育与培养，形成稳定的人才供给和合理的人才梯队，促进人工智能安全持续发展。

可控生态方面，加强人工智能产业生态中薄弱环节的研究与投入，提升产业生态的自我主导能力，保障人工智能安全可控发展。

以下的第二章、第三章、第四章，分别对第一章的安全风险、安全应用、安全管理三大部分观点，又分别进行叙述。最后，本文提出人工智能的发展建议，相当于对人工智能的总结。因此，文本采用了总分总的结构来阐述人工智能。

第二章、人工智能安全风险分析（一）网络安全风险

1、目前，国内人工智能产品和应用的研发主要是基于谷歌、微软、亚马逊、脸书、百度等科技巨头发布的人工智能学习框架和组件。但是，由于这些开源框架和组件缺乏严格的测试管理和安全认证，可能存在漏洞和后门等安全风险。

2、过去恶意软件的创建在很大程度上由网络犯罪分子人工完成，通过手动编写脚本以组成计算机病毒和木马，并利用rootkit、密码抓取器和其他工具帮助分发和执行。但人工智能技术可使这些流程自动化，通过插入一部分对抗性样本，绕过安全产品的检测，甚至根据安全产品的检测逻辑，实现恶意软件自动化地在每次迭代中自发更改代码和签名形式，在自动修改代码逃避反病毒产品检测的同时，保证其功能不受影响。

3、2017年3月，首个用机器学习创建恶意软件的案例出现在《为基于GAN的黑盒测试产生敌对恶意软件样本》的论文报告中，基于生成性对抗网络(GAN)的算法来产生对抗恶意软件样本，这些样本能绕过基于机器学习的检测系统。

4、Fortinet在其发布的2018年全球威胁态势预测中表示，人工智能技术未来将被大量应用在蜂巢网络（Hivenet）和机器人集群(Swarmbots)中，利用自我学习能力以前所未有的规模自主攻击脆弱系统。

（二）数据安全风险1、逆向攻击可导致算法模型内部的数据泄露。

逆向攻击是利用机器学习系统提供的一些应用程序编程接口（API）来获取系统模型的初步信息，进而通过这些初步信息对模型进行逆向分析，从而获取模型内部的训练数据和运行时采集的数据。例如，Fredrikson等人在仅能黑盒式访问用于个人药物剂量预测的人工智能算法的情况下，通过某病人的药物剂量就可恢复病人的基因信息。

2、人工智能技术可加强数据挖掘分析能力，加大隐私泄露风险。

Facebook数据泄露事件的主角剑桥分析公司通过关联分析的方式获得了海量的美国公民用户信息，包括肤色、性取向、智力水平、性格特征、宗教信仰、政治观点以及酒精、烟草和毒品的使用情况，借此实施各种政治宣传和非法牟利活动。

（三）算法安全风险1、算法设计或实施有误可产生与预期不符甚至伤害性结果。

2018年3月，Uber自动驾驶汽车因机器视觉系统未及时识别出路上突然出现的行人，导致与行人相撞致人死亡。

谷歌、斯坦福大学、伯克利大学和OpenAI研究机构的学者根据错误产生的阶段将算法模型设计和实施中的安全问题分为三类。第一类是设计者为算法定义了错误的目标函数。例如，设计者在设计目标函数时没有充分考虑运行环境的常识性限制条件，导致算法在执行任务时对周围环境造成不良影响。第二类是设计者定义了计算成本非常高的目标函数，使得算法在训练和使用阶段无法完全按照目标函数执行，只能在运行时执行某种低计算成本的替代目标函数，从而无法达到预期的效果或对周围环境造成不良影响。第三类是选用的算法模型表达能力有限，不能完全表达实际情况，导致算法在实际使用时面对不同于训练阶段的全新情况可能产生错误的结果。

2、算法潜藏偏见和歧视，导致决策结果可能存在不公。

比如Northpointe公司开发的犯罪风险评估算法COMPAS时，黑人被错误地评估为具有高犯罪风险的概率两倍于白人。本质原因由两方面原因造成，一、设计者和开发者的主观偏见。二是数据是社会现实的反应，训练数据本身带有歧视性，用这样的数据训练得出的算法模型天然潜藏歧视和偏见。

3、算法黑箱导致人工智能决策不可解释，引发监督审查困境。4、含有噪声或偏差的训练数据可影响算法模型准确性。

例如，主流人脸识别系统大多用白种人和黄种人面部图像作为训练数据，在识别黑种人时准确率会有很大下降。MIT研究员与微软科学家对微软、IBM和旷世科技三家的人脸识别系统进行测试，发现其针对白人男性的错误率低于1%，而针对黑人女性的错误率则高达21%-35%。

5、对抗样本攻击可诱使算法识别出现误判漏判，产生错误结果。

例如，Biggio研究团队利用梯度法来产生最优化的逃避对抗样本，成功实现对垃圾邮件检测系统和PDF文件中的恶意程序检测系统的攻击。再例如，Nguyen等人利用改进的遗传算法产生多个类别图片进化后的最优对抗样本，对谷歌的AlexNet和基于Caffe架构的LeNet5网络进行模仿攻击，从而欺骗DNN实现误分类。

（四）信息安全风险1、智能推荐算法可加速不良信息的传播。

McAfee公司表示，犯罪分子将越来越多地利用机器学习来分析大量隐私记录，以识别潜在的易攻击目标人群，通过智能推荐算法投放定制化钓鱼邮件，提升社会工程攻击的精准性。

2、人工智能技术可制作虚假信息内容，用以实施诈骗等不法活动。

2017年，我国浙江、湖北等地发生多起犯罪分子利用语音合成技术假扮受害人亲属实施诈骗的案件，造成恶劣社会影响。 2018年2月英国剑桥大学等发布的《人工智能的恶意使用：预测、预防和缓解》研究报告预测，未来通过合成语音和视频及多轮次对话的诈骗技术成为可能，基于人工智能的精准诈骗将使人们防不胜防。

2018年5月8日，谷歌在I/O开发者大会上展示的聊天机器人，在与人进行电话互动时对话自然流畅、富有条理，已经完全骗过了人类。

（五）社会安全风险1、人工智能产业化推进将使部分现有就业岗位减少甚至消失，导致结构性失业。

据ForresterResearch预测统计，人工智能技术将在2025年之前取代美国7％的工作岗位，其中16％的美国工人将被人工智能系统取代。《未来简史》作者尤瓦尔·赫拉利预言，二三十年内超过50%工作会被人工智能取代。

2、人工智能特别是高度自治系统的安全风险可危及人身安全。

例如，2016年5月，开启自动驾驶功能的特斯拉汽车无法识别蓝天背景下的白色货车，在美国发生车祸致驾驶员死亡；2017年年初，我国发生多起无人机干扰致航班紧急迫降事件。

3、人工智能产品和应用会对现有社会伦理道德体系造成冲击。

体现在4个方面：

3.1、智能系统的决策算法会影响社会公平正义。

Kronos公司的人工智能雇佣辅助系统让少数族裔、女性或者有心理疾病史的人更难找到工作。

3.2、人工智能应用缺乏道德规范约束，资本逐利本性会导致公众权益受到侵害。

例如：携程、滴滴等基于用户行为数据分析，实现对客户的价格歧视；Facebook利用人工智能有针对性地向用户投放游戏、瘾品甚至虚假交友网站的广告，从中获取巨大利益。

3.3、人工智能会让人类产生严重依赖，冲击现有人际观念。

智能伴侣机器人依托个人数据分析，能够更加了解个体心理，贴近用户需求，对人类极度体贴和恭顺，这就会让人类放弃正常的异性交往，严重冲击传统家庭观念。

3.4、人工智能产品和系统安全事件导致的财产损失、人身伤害等面临无法追责的困境。

（六）国家安全风险1、人工智能可用于影响公众政治意识形态，间接威胁国家安全

美国伊隆大学数据科学家奥尔布赖特指出，通过行为追踪识别技术采集海量数据，识别出潜在的投票人，进行虚假新闻的点对点的推送，可有效影响美国大选结果。

2、人工智能可用于构建新型军事打击力量，直接威胁国家安全。

例如，美国国防部明确把人工智能作为第三次“抵消战略”的重要技术支柱。俄罗斯军队于2017年开始大量列装机器人，计划到2025年，无人系统在俄军装备结构中的比例将达到30%

第三章、人工智能安全应用情况（一）网络信息安全应用1、网络安全防护应用

1.1、从应用深度看，人工智能在网络安全的应用程度仍处于前期积累阶段。

例如，在入侵检测方面，以色列Hexadite公司利用人工智能来自动分析威胁，迅速识别和解决网络攻击，帮助企业内部安全团队管理和优先处理潜在威胁；我国山石网科公司研发智能防火墙，可基于行为分析技术，帮助客户发现未知网络威胁，能够在攻击的全过程提供防护和检测。

1.2、从应用范围看，人工智能在网络安全的应用场景日益广泛。

如英国DarkTrace公司基于剑桥大学的机器学习和人工智能算法仿生人类免疫系统，致力于实现网络自动自主防御潜在威胁，能够帮助企业快速识别并应对人为制造的网络攻击，同时还能预防基于机器学习的网络攻击。

2、信息内容安全审查应用

美国互联网巨头Facebook不仅利用人工智能技术对互联网内容进行标记，而且利用机器学习开发了一款对用户的视频直播内容进行实时监控识别的工具，自动对直播中涉黄、涉暴或者自杀类别的视频内容进行标记。

3、数据安全管理应用

德国的Neokami公司利用人工智能技术帮助客户保护云端、本地或物理资产上的敏感数据，该公司所研发的数据分类引擎适用于多种业务场景，已被众多合作伙伴厂商所采用，在多家财富500强公司中创造价值。

（二）社会公共安全应用1、智能安防应用

1.1、基于人工智能技术的智能安防呈现全球高速发展的良好态势。

与传统安防不同，基于人工智能的智能安防依托对海量视频数据的学习，可完成行为模式的推断和预测，已经从被动防御向主动判断、及时预警的智能化方向发展，目前已经应用于人脸识别、车辆识别等系统中，进行目标属性提取，实现对目标的智能检测、跟踪及排查。

1.2、国外芯片巨头把握行业发展良机，加紧在智能安防产业链上游布局。

美国芯片巨头英特尔早在2016年就收购了具有领先技术的计算机视觉公司Movidius，之后陆续推出多款植入独立神经运算引擎、支持边缘深度学习推断的视觉运算芯片以及神经计算SDK开发包，形成平台化设计，为世界范围内各大安防公司提供个性化的解决方案。

1.3、国内智能安防产业发展空间巨大。

预计到2020年，安防企业总收入达到8000亿元左右，年增长率达到10%以上

1.4、国内智能安防行业创新能力不断加强，但仍需向产业链上游努力迈进。

目前看，国内安防市场竞争格局以人工智能创新型企业和传统安防巨头两类企业为主。其中，基于人工智能的初创企业如云从科技、商汤科技和旷视科技等，依托在计算机视觉、数据深度分析等方面的技术积累，推出智能安防产品，进行产业布局；传统安防巨头海康威视、大华股份等近年来不断加大研发投入，加强技术创新能力，并且对初创企业进行投资收购，逐步提升安防产品智能化水平

2、金融风控应用

2.1、人工智能技术可用于提升金融风控工作效率和准确度。

2.2、国外发展相对成熟，已应用于金融交易监管。

2016年底，纳斯达克和伦敦证券交易所启用人工智能投入市场监管；2017上半年，华尔街两家交易所推出智能监管系统。

2.3、国内处于起步阶段，仍需长时间的市场验证。

国内融360、好贷网、资信客等金融企业借助对企业市场影响力、产品口碑评价等广泛的数据采集和有效筛选，依托人工智能技术实现了对历史经营数据和实时市场信息的量化建模，进而实现了对各类资产风险的预测评估。

第四章、人工智能安全管理现状（一）主要国家人工智能安全关注重点1、美国：关注人工智能技术对国家安全的影响。

2017年7月，哈佛大学肯尼迪政治学院发布《人工智能与国家安全》报告。

2018年3月20日，美国国会发起提案，建议成立“国家人工智能安全委员会”，并将制定“2018年国家安全委员会人工智能法”。

2、欧盟和英国：关注人工智能对隐私、就业及伦理影响

2018年3月27日，欧洲政治战略中心发布《人工智能时代：确立以人为本的欧洲战略》

3、俄罗斯、以色列、印度：重点关注人工智能国防领域应用以及对军事安全影响4、加拿大、日本、韩国、新加坡：侧重人工智能人才培养、技术研发和产业推进等，对人工智能安全关注较少

加拿大政府2017年3月推出了《泛加拿大人工智能战略》。

日本政府在2016年1月颁布了《第5期科学技术基本计划》。

韩国在2005年1月至2017年第三季度期间，与人工智能相关的专利数量全球排名第三，仅次于美国和日本。

新加坡在2017年5月发布《新加坡人工智能战略》

（二）主要国家人工智能安全法规政策制定情况

省略

（三）国内外人工智能安全标准规范制定情况1、IEEE正在开发人工智能伦理道德标准，规范人工智能安全设计。

2017年3月，IEEE在《IEEE机器人与自动化》杂志发表了名为“旨在推进人工智能和自治系统的伦理设计的IEEE全球倡议书”。

目前，IEEE工作组正在开发IEEEP7000系列中涉及道德规范的伦理标准。

2、ISO/IEC成立人工智能可信研究组，开展人工智能安全标准研究。3、我国成立国家人工智能标准化总体组与专家咨询组，加强人工智能安全标准研制工作。（四）国内外人工智能安全技术手段建设情况

1、2016年10月，英国下议院科学和技术委员会发布《机器人技术和人工智能》报告，呼吁政府应该对人工智能进行监管。

2、大疆科技通过事前环节的实名登记，实现所有无人机的实名使用，确保使用者有据可查。

（五）国内外人工智能重点应用的安全评估情况1、自动驾驶的安全测试验证受到各国高度重视，但未形成统一安全标准和评价体系。

2016年9月20日，美国交通运输部颁布《联邦自动驾驶汽车政策》。

2018年4月12日，我国工信部、公安部、交通部联合发布《智能网联汽车道路测试管理规范（试行）》

2、工业机器人相关安全标准较为完备，但智能服务机器人安全标准体系和评估能力尚待完善。

ISO/TC299/WG2完成了服务机器人领域第一个安全标准——ISO13482：2014《个人护理机器人的安全要求》。

2017年1月，国家发改委、工信部、国标委、认监委等部门联合发布了《家用/商用服务机器人安全及EMC认证实施规则》。

（六）国内外人工智能人才队伍建设情况

1、清华、南开等多所985高校成立人工智能研究院。

2、2018年7月，清华、南大、西交大等26所高校联合签署《关于设置人工智能专业建议书》，申请设立人工智能本科专业。

3、目前，人工智能领域学术能力排在世界前20的学校中，美国占据14所，排名前八个席位的都为美国所占据。

4、截止2017年6月，美国产业人才总量约是中国的两倍，美国1078家人工智能企业约有78000名员工，中国592家公司中约有39000位员工。

5、我国深人工智能从业者占比与美国差距明显（十年以上从业者占比38.7%，而美国是71.5%20）。

（七）国内外人工智能产业生态培育情况

1、国内人工智能产业投资和技术研究主要集中在应用层环节，在自动驾驶、计算机视觉、语音识别等应用领域形成一定优势，甚至部分产业处于国际领先水平。

2、我国人工智能基础层发展相对缓慢，缺少重大原创成果，在基础理论、核心算法以及关键设备、高端芯片等方面差距较大，尽管涌现出寒武纪、地平线等优秀创业公司，并已形成成熟产品，但同国外英伟达、谷歌等巨头相比差距明显，尚难以取得市场竞争主导权。

3、牛津大学研究报告提出“国家人工智能潜力指数(AIPI)”，中国产业生态位居世界第二，但得分仅为美国的四分之一。

五、人工智能安全发展建议（一）加强自主创新，突破共性关键技术

因此，需要从云计算、大数据和机器学习等关键通用技术研究入手，破解基础安全风险。一方面，立足自主，以传感器、智能芯片、基础算法等重点技术安全可控发展为目标，实施重大技术攻关工程；另一方面，加大技术引进，以开放务实的态度开展对外技术合作，实现技术消化吸收和再创新。

（二）完善法律法规，制定伦理道德规范（三）健全监管体系，引导产业健康发展（四）强化标准引领，构建安全评估体系（五）促进行业协作，推动技术安全应用（六）加大人才培养，提升人员就业技能（七）加强国际交流，应对共有安全风险（八）加大社会宣传，科学处理安全问题

[当人工智能遇上安全] 1人工智能真的安全吗浙大团队外滩大会分享AI对抗样本技术

您或许知道，作者后续分享网络安全的文章会越来越少。但如果您想学习人工智能和安全结合的应用，您就有福利了，作者将重新打造一个《当人工智能遇上安全》系列博客，详细介绍人工智能与安全相关的论文、实践，并分享各种案例，涉及恶意代码检测、恶意请求识别、入侵检测、对抗样本等等。只想更好地帮助初学者，更加成体系的分享新知识。该系列文章会更加聚焦，更加学术，更加深入，也是作者的慢慢成长史。换专业确实挺难的，系统安全也是块硬骨头，但我也试试，看看自己未来四年究竟能将它学到什么程度，漫漫长征路，偏向虎山行。享受过程，一起加油~

第一篇文章将带领大家复习AI对抗样本技术，总结大佬们的分享。基础性入门文章，希望对您有所帮助。作者作为网络安全的小白，分享一些自学基础教程给大家，主要是在线笔记，希望您们喜欢。同时，更希望您能与我一起操作和进步，后续将深入学习AI安全和系统安全知识并分享相关实验。总之，希望该系列文章对博友有所帮助，写文不易，大神们不喜勿喷，谢谢！如果文章对您有帮助，将是我创作的最大动力，点赞、评论、私聊均可，一起加油喔！

外滩大会AI安全-智能时代的攻守道DeepLearningSecurity:FromtheNLPPerspective浙江大学

AI技术蓬勃发展，无论是金融服务、线下生活、还是医疗健康都有AI的影子，那保护好这些AI系统的安全是非常必要也是非常重要的。目前，AI安全是一个非常新的领域，是学界、业界都共同关注的热门话题，本论坛将邀请AI安全方面的专家，分享交流智能时代的功守道，推动和引领业界在AI安全领域的发展。

本次论坛的题目为“AI安全-智能时代的攻守道”，其中武汉大学王骞院长分享了语音系统的对抗性攻防，浙江大学纪守领研究员分享了NLP中的安全，浙江大学秦湛研究员分享了深度学习中的数据安全新型攻防，来自蚂蚁集团的宗志远老师分享了AI安全对抗防御体系，任奎院长分享了AI安全白皮书。本文主要讲解NLP中的AI安全和白皮书相关知识，希望对您有所帮助。这些大佬是真的值得我们去学习，献上小弟的膝盖~fighting！

PS：顺便问一句，你们喜欢这种会议讲座方式的分享吗？担心效果不好，如果不好我就不分享和总结类似的会议知识了，欢迎评论给我留言。

文章目录一.AI安全白皮书1.AI模型安全问题2.AI数据安全问题3.AI承载系统安全问题4.防御方法二.从NLP视角看机器学习模型安全三.对抗文本TextBugger1.论文贡献2.白盒攻击3.黑盒攻击4.实验评估四.中文对抗文本五.总结一.AI安全白皮书

随着人工智能日益发展，自动驾驶、人脸识别、语音识别等技术被广泛应用，同时带来的是严峻的AI安全问题。常见的安全问题包括：

自动驾驶系统错误识别路牌自然语言处理系统错误识别语义语音识别系统错误识别用户指令

当今的AI安全非常重视四种性能，包括：

保密性涉及的数据与模型信息不会泄露给没有授权的人完整性算法模型、数据、基础设施和产品不被恶意植入篡改替换伪造鲁棒性能同时抵御复杂的环境条件和非正常的恶意干扰隐私性AI模型在使用过程中能够保护数据主体的数据隐私

针对这四种性能的AI攻击层出不穷，比如推断攻击、对抗样本、投毒攻击、模型窃取等。

因此，任奎院长带来了《AI安全白皮书》的分享。

浙江大学和蚂蚁集团合作，他们调研了近年来发表在安全、人工智能等领域国际会议与期刊上的300余篇攻防技术研究成果，聚焦模型、数据、承载三个维度的安全威胁与挑战，梳理了AI安全的攻击与防御技术。根据真实场景中AI技术面临的安全问题，总结提出AI应用系统的一站式安全解决方案（AISDL），并共同推出了《AI安全白皮书》。整个框架如下图所示：

他们经过梳理，将AI技术面临的威胁归为三大类，分别是：

AI模型安全问题模型完整性威胁=>数据投毒攻击模型鲁棒性威胁=>对抗样本攻击AI数据安全问题模型参数泄露=>模型替代攻击数据隐私泄露=>模型逆向攻击AI承载系统安全问题硬件设备安全问题=>电路扰动攻击系统软件安全问题=>代码注入攻击

在介绍三种安全问题之前，作者首先给大家普及下什么是对抗样本？对抗样本指的是一个经过微小调整就可以让机器学习算法输出错误结果的输入样本。在图像识别中，可以理解为原来被一个卷积神经网络（CNN）分类为一个类（比如“熊猫”）的图片，经过非常细微甚至人眼无法察觉的改动后，突然被误分成另一个类（比如“长臂猿”）。再比如无人驾驶的模型如果被攻击，Stop标志可能被汽车识别为直行、转弯。

对抗样本的经典流程如下图所示——GU等人提出的BadNets。它通过恶意（poisoning）训练数据集来注入后门，具体如下：

首先攻击者选择一个目标标签和触发器图案，它是像素和相关色彩强度的集合。图案可能类似于任意形状，例如正方形。接下来，将训练图像的随机子集用触发器图案标记，并将它们的标签修改为目标标签。然后用修改后的训练数据对DNN进行训练，从而注入后门。

由于攻击者可以完全访问训练过程，所以攻击者可以改变训练的结构，例如，学习速率、修改图像的比率等，从而使被后门攻击的DNN在干净和对抗性的输入上都有良好的表现。BadNets显示了超过99%的攻击成功率（对抗性输入被错误分类的百分比），而且不影响MNIST中的模型性能。下图右下角的触发器（后门）导致了神经网络训练学习错误地类别，将Label5和Label7预测为Label4。

PS：在下一篇文章中我们会详细讲解AI数据安全和AI语音安全论文，这篇文章主要针对NLP文本的对抗样本分享，望您喜欢！

1.AI模型安全问题

(1)模型完整性威胁=>数据投毒攻击攻击者在正常训练集中加入少量的毒化数据，破坏模型完整性，操纵AI判断结果。模型偏移会使模型对好坏输入的分类发生偏移，降低模型的准确率。同时，后门攻击不影响模型的正常使用，只在攻击者设定的特殊场景使模型出现错误。

(2)模型鲁棒性威胁=>对抗性样本攻击攻击者在模型测试阶段，向输入样本加入对抗扰动，破坏模型鲁棒性，操纵AI判断结果。

不同限制条件扰动、对抗补丁、非限制性对抗攻击不同威胁模型白盒攻击、灰盒攻击、黑盒攻击不同应用场景图像识别、3D物体识别、音频识别、文本分类

深度学习模型通常都存在模型鲁棒性缺乏的问题，一方面由于环境因素多变，包括AI模型在真实使用过程中表现不够稳定，受光照强度、视角角度距离、图像仿射变换、图像分辨率等影响，从而导致训练数据难以覆盖现实场景的全部情况。另一方面模型的可解释性不足，深度学习模型是一个黑箱，模型参数数量巨大、结构复杂，没有恶意攻击的情况下，可能出现预期之外的安全隐患，阻碍AI技术在医疗、交通等安全敏感性高的场景下使用。

任老师他们团队的相关工作包括分布式对抗攻击和面向三维点云的对抗攻击等。

2.AI数据安全问题

AI数据安全简单来说就是通过构造特定数据集，结合模型预测的结果来获取深度学习模型的参数或数据。如下图所示，通过模型逆向攻击重建图像，深度学习模型泄露了训练数据中的敏感信息。

AI数据安全包括模型参数泄露和训练数据泄露，具体如下图所示。模型参数泄露攻击方法包括方程求解攻击、基于Meta-model的模型窃取、模型替代攻击；训练数据泄露包括输出向量泄露和梯度更新泄露，方法包括成员推断攻击、模型逆向攻击、分布式模型梯度攻击。

任老师他们做的相关工作包括：

基于梯度更新的数据泄露针对联邦学习框架，攻击者可以通过用户上传的梯度更新重构特定用户的隐私数据

模型逆向攻击首个对商用用户识别模型的逆向攻击（CCS’19）

3.AI承载系统安全问题

(1)硬件设备安全问题

攻击者直接接触硬件设备，添加电路层面扰动，伪造数据。导致模型误判、指令跳转、系统奔溃等严重后果，每次推导后被正确数据覆盖，攻击隐蔽且难以检测。攻击者测量硬件系统的电磁、功能泄露，获取模型粗粒度超参数，为模型窃取提供先验知识。模型不同层、激活函数等运行过程中的泄露信息存在固定模式，或者利用旁路分析方法恢复模型超参数。

(2)系统与软件安全问题

AI系统与软件安全漏洞导致关键数据篡改、模型误判、系统崩溃或被劫持控制流等严重后果。代码注入攻击、控制流劫持攻击、数据流攻击等多维度攻击层出不穷，并在新环境下不断演化。同时，AI系统模块众多、结构复杂、在可扩展性方面存在不足，复杂场景下的攻击检测和安全威胁发现存在较大难题。

4.防御方法

(1)模型安全性增强面向模型完整性威胁的防御

数据毒化：利用频谱特征比较、聚类算法等手段检测含有后门的输入数据模型毒化：使用剪枝、微调、检测与重训练等方法来消除模型的后门特征

面向模型鲁棒性威胁的防御

对抗训练：把良性样本和对抗样本同时纳入训练阶段对神经网络进行训练输入预处理：通过滤波、位深度减小、输入清理等处理操作，消除输入数据中的对抗性扰动特异性防御算法：使用蒸馏算法、特征剪枝、随机化等算法对深度学习模型进行优化

(2)模型安全性增强

模型结构防御降低模型的过拟合程度，从而实现对模型泄露和数据泄露的保护信息混淆防御对模型的预测结果做模糊操作，干扰输出结果中包含的有效信息，减少隐私信息的泄露查询控制防御根据用户的查询进行特征提取，分辨攻击者与一般用户，从而对攻击者的行为进行限制或拒绝服务

(3)系统安全性防御硬件安全保护

关键数据加密：保障系统内部关键数据安全，防止旁路攻击硬件故障检测：实时检测电路故障并作出相应，确保不会被攻击者破坏劫持

软件安全保护

权限分级管理：保证模型数据只能被可信任的程序访问调用操作行为可溯源：保留核心数据生命周期内的操作记录

最后他们和蚂蚁集团提出一种AI模型安全开发声生命周期——AISDL，分阶段引入安全和隐私保护原则，实现有安全保证的AI开发过程。

最后总结：

白皮书介绍了模型、数据与承载系统面临的安全威胁以及防御手段，给出了AI应用的一站式安全解决方案在攻防中迭代更新的安全技术，新的行业门口降低合规成本，减少业务损失，开辟新的业务

二.从NLP视角看机器学习模型安全

在图像领域和语音领域都存在很多对抗样本攻击（AdversarialAttack），比如一段“Howareyou”的语音增加噪声被识别成“Openthedoor”，再如智能音响中增加噪声发起语音攻击等等。

那么，在文本领域也存在对抗样本攻击吗？自然语言处理（NaturalLanguageProcessing，NLP）的机器学习服务（MLaaS）是否也容易受到对抗样本攻击呢？

首先，给大家普及下自然语言处理。常见的应用包括：

机器翻译信息检索情感分析自动问答自动文摘知识图谱…

本篇博客主要介绍针对情感分类的对抗文本，所以介绍下情感分类的基础。深度学习在处理文本时，NLP通常要将文本进行分词、数据清洗、词频计算，然后转换成对应的词向量或TF-IDF矩阵，再进行相似度计算或文本分类，当某种情感（积极消极）的特征词出现较多，则预测为该类情感。那么，能否让深度学习模型总是预测错误呢？

NLP的对抗样本攻击和图像或语音的对抗样本存在很大的差异性，具体区别如下：

图像(像素)连续vs文本离散像素微小改变扰动小vs文本改变扰动易觉察连续空间优化方法很多vs离散空间不方便优化文本语义问题、歧义问题

由于图片和文本数据内在的不同，用于图像的对抗攻击方法无法直接应用与文本数据上。首先，图像数据（例如像素值）是连续的，但文本数据是离散的。其次，仅仅对像素值进行微小的改变就可以造成图像数据的扰动，而且这种扰动是很难被人眼察觉的。但是对于文本的对抗攻击中，小的扰动很容易被察觉，但人类同样能「猜出」本来表达的意义。因此NLP模型需要对可辨识的特征鲁棒，而不像视觉只需要对「不太重要」的特征鲁棒。

DeepWordBug下图是DeepWordBug的深度网络攻击示例（选自arXiv：1902.07285），展示了文本对抗样本的基本流程。正常深度学习预测的情感为positive，但修改某些关键词后（placeheart），它的情感分类结果为negative。

代码下载：https://github.com/QData/deepWordBug

与图像领域一样，有进攻就会有防御，目前也有很多研究尝试构建更鲁棒的自然语言处理模型。推荐大家阅读CMU的一篇对抗性拼写错误论文（arXiv：1905.11268）中，研究者通过移除、添加或调序单词内部的字符，以构建更稳健的文本分类模型。这些增减或调序都是一种扰动，就像人类也很可能出现这些笔误一样。通过这些扰动，模型能学会如何处理错别字，从而不至于对分类结果产生影响。

参考文献：NLP中的对抗样本-山竹小果

下面开始介绍纪老师他们开展的工作。

三.对抗文本TextBugger

TextBugger:GeneratingAdversarialTextAgainstReal-worldApplications这篇论文发表在NDSS2019，主要提出了生成文本对抗样本的模型TextBugger，用于生成文本对抗样本。其优势如下：

有效(effective):攻击成功率超出之前的模型隐蔽(evasive):保留正常文本的特点高效(efficient:高效生成对抗性文本，运算速度是文本长度的次线性

原文地址：

https://arxiv.org/abs/1812.05271

1.论文贡献

文本对抗在应用中越来越重要，而图像对抗中的方法不能直接用于文本。之前的对抗样本生成模型有着下述的缺点：

在计算上不够高效在白盒环境攻击需要手动干预都是针对某一个模型，不具备泛化性

本文提出了一个新框架TextBugger，可生成黑箱和白箱场景下的保持样本原意的对抗样本。在白箱场景下，可以通过计算雅各比矩阵来找到句子中的关键词；在黑箱场景下，可以先找到最重要的句子，再使用一个评分函数来寻找句子中的关键词。在真实世界的分类器中使用了对抗样本，取得了不错的效果。具体贡献包括：

提出TextBugger框架，能够在黑箱和白箱场景下生成高效对抗样本对TextBugger框架进行了评测，证明了其的效率和有效性证明TextBugger对于人类理解只有轻微影响讨论了两种防御策略，以增强文本分类模型鲁棒性

具体实验环境如下图所示，数据集为IMDB和RottenTomatoesMovieReviews数据集，都是对影评数据进行情感分析的数据集。目标模型为：

白盒攻击：针对LR、CNN和LSTM模型黑盒攻击：真实线上模型，如GoogleCloudNLP、IBMWastonNaturalLanguageUnderstanding(IBMWatson)、MicrosoftAzureTextAnalytics(MicrosoftAzure)、AmazonAWSComprehend(AmazonAWS)、Facebookfast-Text(fastText)、ParallelDots、TheySaySentiment、AylienSentiment、TextProcessing、MashapeSentiment等参数未知的模型

基线算法为：

随机算法：每个句子，随机选择10%的单词来修改。FGSM+NNS：使用快速梯度符号法寻找单词嵌入层的最佳扰动，再在词典中通过最近邻搜索的方式寻找到最接近的单词。DeepFool+NNS：使用DeepFool方法寻找穿越多分类问题决策边界的方向，进而找到最佳扰动，再在词典中通过最近邻搜索的方法寻找最接近的单词。

PS：该部分参考“人帅也要多读书”老师的理解。

对抗攻击分类对抗攻击的分类有很多种，从攻击环境来说，可以分为黑盒攻击、白盒攻击或灰盒攻击.

黑盒攻击：攻击者对攻击模型的内部结构、训练参数、防御方法等一无所知，只能通过输出与模型进行交互。白盒攻击：与黑盒模型相反，攻击者对模型一切都可以掌握。目前大多数攻击算法都是白盒攻击。灰盒攻击：介于黑盒攻击和白盒攻击之间，仅仅了解模型的一部分。例如仅仅拿到模型的输出概率，或者只知道模型结构，但不知道参数。

从攻击的目的来说，可以分为有目标攻击和无目标攻击。

无目标攻击：以图片分类为例，攻击者只需要让目标模型对样本分类错误即可，但并不指定分类错成哪一类。有目标攻击：攻击者指定某一类，使得目标模型不仅对样本分类错误并且需要错成指定的类别。从难度上来说，有目标攻击的实现要难于无目标攻击。2.白盒攻击

白盒攻击：通过雅各比矩阵找到最重要的单词，再生成五种类型的bug，根据置信度找到最佳的那一个。TextBugger整个框架如下图所示。

白盒攻击通过雅可比矩阵找到最重要的单词，算法流程如下：

Step1:FindImportantWords(line2-5)找到最重要单词，通过雅各比矩阵来找Step2:BugsGeneration(line6-14)bug生成。为了保证生成的对抗样本在视觉上和语义上都和原样本一致，扰动要尽量小。考虑两种层次的扰动，字母级扰动和单词级扰动

作者发现在一些词嵌入模型中（如word2vec），“worst”和“better”等语义相反的词在文本中具有高度的句法相似性，因此“better”被认为是“worst”的最近邻。以上显然是不合理的，很容易被人察觉。因此使用了语义保留技术，即将该单词替换为上下文感知的单词向量空间中的top-k近邻。使用斯坦福提供的预先训练好的GloVe模型进行单词嵌入，并设置topk为5，从而保证邻居在语义上与原来的邻居相似。

TextBugger提出了五种对抗样本生成方法，如下图所示：

插入空格插入一个空格到单词中删除字符删除除第一个字符和最后一个字符外的任意字符替换字符交换单词中除了开头和结尾的两个字母视觉相似替换视觉上相似的字母（比如“o”和“0”、“l”和“1”）和在键盘上挨着比较近的字母（比如“m”和“n”）上下文感知词向量，最近邻替换(word2vec->GloVe)使用情境感知空间中距离最近的k个单词来进行替换

将使用候选词生成的对抗样本输入模型，得到对应类别的置信度，选取让置信度下降最大的词。如果替换掉单词后的对抗样本与原样本的语义相似度大于阈值，对抗样本生成成功。如果未大于阈值，则选取下一个单词进行修改。

3.黑盒攻击

在黑盒场景下，没有梯度的指示，所以首先找最重要的句子，然后通过打分函数找到最重要的单词。具体攻击分为三个步骤：

Step1:找到重要的句子第一步寻找重要句子。将文档分为多个句子，逐句作为输入，查看分类结果。这样可以过滤掉那些对于预测标签不重要的单句，剩下的句子也可根据置信度来排序了。Step2:根据分类结果，使用评分函数来确定每个单词的重要性，并根据得分对单词进行排序第二步寻找重要的词。考虑到所有可能的修改，应该首先发现句子中最重要的词，再轻微地进行修改以保证对抗样本与原样本的语义相似性。要想评估一个单词的重要性，可以使用去除之前的置信度与去除后的置信度的差来评估。Step3:使用bug选择算法改变选择的单词第三步bug生成。此步骤与白盒攻击中的步骤基本一致。

4.实验评估

主要使用编辑距离、杰卡德相似系数、欧氏距离和语义相似度进行评估。下表展示了论文中方法在白箱环境和黑箱环境下的表现，可以看出与之前的方法相比有很大的优势。

下图展示了对抗文本中的重要单词。根据算法攻击单词的频率，就可以知道对于某一类别影响最大的单词，比如“bad”,“awful”,“stupid”,“worst”,“terrible”这些词就是消极类别中的关键词。

下图是论文算法产生的对抗样本实例，通过简单的单词级别的攻击对分类关键词进行了处理，进而达到了攻击的效果，可以看到目标类别和攻击后的类别差别很大。具体修改比如：

awful=>awfulcliches=>clichsfoolish=>fo0ilshterrible=>terrib1e

实验数据表明，文档的长度对于攻击成功率影响不大，但更长的文本对于错误分类的置信度会下降。文档长度越长，攻击所需时长也就更长，这在直观上较好理解。

总结本论文算法的特点总结如下：首先，算法同时使用了字母级别和单词级别的扰动；其次，论文评估了算法的效率；最后，论文使用算法在众多在线平台上进行了实验，证明了算法的普适性和鲁棒性。同时，现存的防御方法只集中在的图像领域，而在文本领域比较少，对抗训练的方法也只应用于提高分类器的准确性而非防御对抗样本。

四.中文对抗文本

目前看到的很多论文都是介绍英文的对抗文本攻击，但是中文同样存在，并且由于中文语义和分词，其攻击和防御难度更大，接下来纪老师他们分享了正在开展的一个工作。但由于这部分介绍很快，这里仅放出当时拍摄的相关PPT，请大家下来进行研究，我感觉word2vec语义知识能做一些事情。

Query-efficientDecision-basedAttackAgainstChineseNLPSystems

随着对抗样本发展，火星文字越来越多，它们一定程度上能够绕过我们新闻平台、社交网络、情感模型，比如“微信”修改为“薇心”、“玥发叁仟”等词语。中文的对抗文本某种程度上难度更高，那么怎么解决呢？

纪老师他们团队提出了CTbugger（AdversarialChineseText），其框架如下图所示，通过对深度学习模型进行恶意文本攻击从而生成对应的中文对抗文本。

另一块工作是TextShield，其框架如下图所示：

五.总结

最后给出总结的相关文献，大家可以去了解学习。真的非常感谢所有老师的分享，学到很多知识，也意识到自己的不足。我自己也需要思考一些问题：

如何将对抗样本和深度学习与恶意代码分析结合如何结合AI技术完成二进制分析，并且实现特征的可解释性分析

学术或许是需要天赋的，这些大佬真值得我们学习，顶会论文要坚持看，科研实验不能间断。同时自己会继续努力，争取靠后天努力来弥补这些鸿沟，更重要的是享受这种奋斗的过程，加油！虽然自己的技术和科研都很菜，安全也非常难，但还是得苦心智，劳筋骨，饿体肤。感恩亲人的支持，也享受这个奋斗的过程。月是故乡圆，佳节倍思亲。

最后给出“山竹小果”老师归纳的对抗样本相关论文：(1)文本攻击与防御的论文概述

AnalysisMethodsinNeuralLanguageProcessing:ASurvey.YonatanBelinkov,JamesGlass.TACL2019.TowardsaRobustDeepNeuralNetworkinTextDomainASurvey.WenqiWang,LinaWang,BenxiaoTang,RunWang,AoshuangYe.2019.AdversarialAttacksonDeepLearningModelsinNaturalLanguageProcessing:ASurvey.WeiEmmaZhang,QuanZ.Sheng,AhoudAlhazmi,ChenliangLi.2019.

(2)黑盒攻击

PAWS:ParaphraseAdversariesfromWordScrambling.YuanZhang,JasonBaldridge,LuhengHe.NAACL-HLT2019.TextProcessingLikeHumansDo:VisuallyAttackingandShieldingNLPSystems.SteffenEger,GözdeGül¸Sahin,AndreasRücklé,Ji-UngLee,ClaudiaSchulz,MohsenMesgar,KrishnkantSwarnkar,EdwinSimpson,IrynaGurevych.NAACL-HLT2019.AdversarialOver-SensitivityandOver-StabilityStrategiesforDialogueModels.TongNiu,MohitBansal.CoNLL2018.GeneratingNaturalLanguageAdversarialExamples.MoustafaAlzantot,YashSharma,AhmedElgohary,Bo-JhangHo,ManiSrivastava,Kai-WeiChang.EMNLP2018.BreakingNLISystemswithSentencesthatRequireSimpleLexicalInferences.MaxGlockner,VeredShwartz,YoavGoldbergACL2018.AdvEntuRe:AdversarialTrainingforTextualEntailmentwithKnowledge-GuidedExamples.DongyeopKang,TusharKhot,AshishSabharwal,EduardHovy.ACL2018.SemanticallyEquivalentAdversarialRulesforDebuggingNLPModels.MarcoTulioRibeiro,SameerSingh,CarlosGuestrinACL2018.RobustMachineComprehensionModelsviaAdversarialTraining.YichengWang,MohitBansal.NAACL-HLT2018.AdversarialExampleGenerationwithSyntacticallyControlledParaphraseNetworks.MohitIyyer,JohnWieting,KevinGimpel,LukeZettlemoyer.NAACL-HLT2018.Black-boxGenerationofAdversarialTextSequencestoEvadeDeepLearningClassifiers.JiGao,JackLanchantin,MaryLouSoffa,YanjunQi.IEEESPW2018.SyntheticandNaturalNoiseBothBreakNeuralMachineTranslation.YonatanBelinkov,YonatanBisk.ICLR2018.GeneratingNaturalAdversarialExamples.ZhengliZhao,DheeruDua,SameerSingh.ICLR2018.AdversarialExamplesforEvaluatingReadingComprehensionSystems.RobinJia,andPercyLiang.EMNLP2017.

(3)白盒攻击

OnAdversarialExamplesforCharacter-LevelNeuralMachineTranslation.JavidEbrahimi,DanielLowd,DejingDou.COLING2018.HotFlip:White-BoxAdversarialExamplesforTextClassification.JavidEbrahimi,AnyiRao,DanielLowd,DejingDou.ACL2018.TowardsCraftingTextAdversarialSamples.SuranjanaSamanta,SameepMehta.ECIR2018.

(4)同时探讨黑盒和白盒攻击

TEXTBUGGER:GeneratingAdversarialTextAgainstReal-worldApplications.JinfengLi,ShoulingJi,TianyuDu,BoLi,TingWang.NDSS2019.ComparingAttention-basedConvolutionalandRecurrentNeuralNetworks:SuccessandLimitationsinMachineReadingComprehension.MatthiasBlohm,GloriannaJagfeld,EktaSood,XiangYu,NgocThangVu.CoNLL2018.DeepTextClassificationCanbeFooled.BinLiang,HongchengLi,MiaoqiangSu,PanBian,XirongLi,WenchangShi.IJCAI2018.

(5)对抗防御

CombatingAdversarialMisspellingswithRobustWordRecognition.DanishPruthi,BhuwanDhingra,ZacharyC.Lipton.ACL2019.评估

(6)对文本攻击和防御研究提出新的评价方法

OnEvaluationofAdversarialPerturbationsforSequence-to-SequenceModels.PaulMichel,XianLi,GrahamNeubig,JuanMiguelPino.NAACL-HLT2019

参考文献：感谢这些大佬和老师们的分享和总结，秀璋受益匪浅，再次感激。[1]AI安全-智能时代的攻守道[2]https://arxiv.org/abs/1812.05271[3](强烈推荐)NLP中的对抗样本-山竹小果[4]TextBugger：针对真实应用生成对抗文本-人帅也要多读书[5]论文阅读|TextBugger:GeneratingAdversarialTextAgainstReal-worldApplications[6]对抗攻击概念介绍-机器学习安全小白[7]LiJ,JiS,DuT,etal.TextBugger:GeneratingAdversarialTextAgainstReal-worldApplications[J].arXiv:CryptographyandSecurity,2018.

(By:Eastmount2021-09-07晚上10点http://blog.csdn.net/eastmount/)

人工智能安全学习笔记 人工智能数据模型安全问题有哪些原因造成的