博舍

数据投毒致人工智能失控 AI杀毒软件市场尚为一片蓝海 人工智能对话失控的原因有哪些方面呢

数据投毒致人工智能失控 AI杀毒软件市场尚为一片蓝海

一辆正常行驶的自动驾驶汽车,突然驶入了逆行车道;胸前贴一款特殊贴纸,犹如披上隐形斗篷,在监控系统中成功遁形;戴上一幅特制眼镜,轻松骗过人脸识别系统后,用别人的手机也可实现刷脸解锁或刷脸支付……

小心,这可能是遇上了难缠的AI病毒!

近日,清华大学人工智能研究院孵化企业推出了针对人工智能算法模型本身安全的RealSafe安全平台,据介绍,该平台可快速缓解对抗样本的攻击威胁。

人工智能感染的是什么病毒?其安全问题有哪些特点?人工智能时代,杀毒软件如何修炼才能化作身怀绝技的病毒猎手?

是敌又是友对抗样本戴着双重面具

RealSafe人工智能安全平台,是针对AI在极端和对抗环境下的算法安全性检测与加固的工具平台,包括模型安全测评、防御解决方案两大功能模块。平台内置AI对抗攻防算法,提供从安全测评到防御加固整体解决方案。

北京理工大学计算机网络及对抗技术研究所所长闫怀志接受科技日报记者采访时表示,上述平台目前侧重于模型和算法安全性检测与加固,可以说是人工智能算法的病毒查杀工具。

闫怀志说,针对人工智能系统实施对抗样本攻击的这类恶意代码,常被称为“AI病毒”。对抗样本是指在数据集中通过故意添加细微的干扰所形成的输入样本,会导致模型以高置信度给出一个错误的输出。

“其实在实验室中,使用对抗样本可以检测许多训练学习类人工智能方法的分类有效性,也可以利用对抗样本来进行对抗训练,以提升人工智能系统的分类有效性。”闫怀志告诉科技日报记者。也就是说,对抗样本可以看成是训练人工智能的一种手段。

“但是在现实世界,攻击者可以利用对抗样本来实施针对AI系统的攻击和恶意侵扰,从而演变成令人头疼的‘AI病毒’。”闫怀志表示,对抗样本攻击可逃避检测,例如在生物特征识别应用场景中,对抗样本攻击可欺骗基于人工智能技术的身份鉴别、活体检测系统。2019年4月,比利时鲁汶大学研究人员发现,借助一张设计的打印图案就可以避开人工智能视频监控系统。

在现实世界中,很多AI系统在对抗样本攻击面前不堪一击。闫怀志介绍,一方面,这是由于AI系统重应用、轻安全的现象普遍存在,很多AI系统根本没有考虑对抗样本攻击问题;另一方面,虽然有些AI系统经过了对抗训练,但由于对抗样本不完备、AI算法欠成熟等诸多缺陷,在对抗样本恶意攻击面前,也毫无招架之力。

对训练数据投毒与传统网络攻击存在明显不同

360公司董事长兼CEO周鸿祎曾表示,人工智能是大数据训练出来的,训练的数据可以被污染,也叫“数据投毒”——通过在训练数据里加入伪装数据、恶意样本等破坏数据的完整性,进而导致训练的算法模型决策出现偏差。

中国信息通信研究院安全研究所发布的《人工智能数据安全白皮书(2019年)》(以下简称白皮书)也提到了这一点。白皮书指出,人工智能自身面临的数据安全风险包括:训练数据污染导致人工智能决策错误;运行阶段的数据异常导致智能系统运行错误(如对抗样本攻击);模型窃取攻击对算法模型的数据进行逆向还原等。

值得警惕的是,随着人工智能与实体经济深度融合,医疗、交通、金融等行业对于数据集建设的迫切需求,使得在训练样本环节发动网络攻击成为最直接有效的方法,潜在危害巨大。比如在军事领域,通过信息伪装的方式可诱导自主性武器启动或攻击,带来毁灭性风险。

白皮书还提到,人工智能算法模型主要反映的是数据关联性和其特征统计,没有真正获取数据之间的因果关系。所以,针对算法模型这一缺陷,对抗样本通过对数据输入样例,添加难以察觉的扰动,使算法模型输出错误结果。

如此一来,发生文章开头所谈到的一类事故就不足为奇了。

此外,模型窃取攻击也值得注意。由于算法模型在部署应用中需要将公共访问接口发布给用户使用,攻击者就可以通过公共访问接口对算法模型进行黑盒访问,并且在没有算法模型任何先验知识(训练数据、模型参数等)的情况下,构造出与目标模型相似度非常高的模型,实现对算法模型的窃取。

闫怀志在采访中表示,AI安全更突出功能安全问题(safety),这通常是指人工智能系统被恶意数据(比如对抗样本数据)所欺骗,从而导致AI输出与预期不符乃至产生危害性的结果。“AI功能安全问题与传统的网络安全强调的保密性、完整性、可用性等信息安全问题(security),存在本质不同。”

预防“中毒”困难重重AI技术也可构筑网络安全利器

闫怀志表示,目前种种原因导致了预防人工智能“中毒”困难重重,原因具体表现在三个方面。

一是很多AI研发者和用户并没有意识到AI病毒的巨大风险和危害,重视并解决AI病毒问题根本无从谈起;二是由于AI正处于高速发展阶段,很多AI研发者和生产商“萝卜快了不洗泥”,根本无暇顾及安全问题,导致带有先天安全缺陷的AI系统大量涌入应用市场;三是部分AI研发者和供应商虽然意识到了AI病毒问题,但由于技术能力不足,针对该问题并无有效的解决办法。

“当然,网络安全本来就是一个高度对抗、动态发展的领域,这也给杀毒软件领域开辟了一个蓝海市场,AI杀毒行业面临着重大的发展机遇。”闫怀志强调,杀毒软件行业首先应该具有防范AI病毒的意识,然后在软件技术和算法安全方面重视信息安全和功能安全问题。

“以现实需求为牵引,以高新技术来推动,有可能将AI病毒查杀这个严峻挑战转变为杀毒软件行业发展的重大契机。”闫怀志强调,AI技术既会带来网络安全问题,也可以赋能网络安全。

一方面,人工智能的广泛应用带来了许多安全风险。由技术性缺陷导致的AI算法安全风险,包括可导致AI系统被攻击者控制的信息安全问题;也可导致AI系统输出结果被攻击者任意控制的功能安全问题。

但另一方面,人工智能技术也可以成为构筑网络空间安全的利器,这主要体现在主动防御、威胁分析、策略生成、态势感知、攻防对抗等诸多方面。“包括采用人工神经网络技术来检测入侵行为、蠕虫病毒等安全风险源;采用专家系统技术进行安全规划、安全运行中心管理等;此外,人工智能方法还有助于网络空间安全环境的治理,比如打击网络诈骗。”闫怀志说。

中国信息通信研究院安全研究所的专家称,为有效管控人工智能安全风险并积极促进人工智能技术在安全领域应用,可从法规政策、标准规范、技术手段、安全评估、人才队伍、可控生态等方面构建人工智能安全管理体系。

(责编:赵超、吕骞)

分享让更多人看到

人工智能的窘境:对话系统

1、ToC艰难、ToB突破:当前2C的产品全部没有达到用户的预期,智能助理看似比专业领域的AI更简单,但实际上恰恰相反。打败柯洁的围棋AI好做,通用的日常任务助理如订餐、行程安排却难做。这不是商业模式的选择,而是技术上的限制:ToB,特别是限定领域的产品,封闭不容易发挥跑题,而且数据比较充分,相对ToC领域的产品更加可行。

 

2、身着皇帝新衣的人工智能:不管是Sophia还是酒店银行的大堂机器人,都是带喇叭的木偶,他们回复的内容要么是人工撰写好,然后利用语音合成输出,要么是真人远程录音。

 

3、大佬的观点:YannLeCun和Hinton认为当前基于统计的机器学习技术来实现“人工智能效果”是行不通的。因为主流的基于统计的机器学习特别是深度学习,是通过大量的案例对文本的特征进行归类,来实现语义识别的效果,这种做法只对现象进行统计和归纳,没有对原因进行推理,形同“罗素鸡”。

 

4、人工智能的现状:智能助理依然智障,大部分ToB的人造机器人都无法规模化,对话方面没有像AlphaZero在围棋领域那样让人震撼的产品,没有商业上大规模崛起的迹象。

 

5、对话系统的现状和本质:对话系统中,用人工来撰写内容,或者使用模板回复,这是现在技术的现状。虽然每个对话系统背后的“对话管理”机制都不同,每家都有各种理解、各种设计,但是万变不离其宗——“填表/填槽”是对话系统的本质。剩下的无非是产品设计、工程实现、如何解决体验和规模化的困境这类问题。

 

6、对话的黑箱:对话智能的交互是一个黑箱,终端用户能感知到自己说出的话(输入)和机器人的回答(输出)。其核心是两点:听人话(识别)+讲人话(对话管理)。

 

7、ASR和NLP:机器学习特别是深度学习带来的语音识别和自然语言理解主要解决的是识别人讲的话,其中的关键是“意图识别(intent)和实体提取(slot)”。由于机器学习领域的重要论文都是公开的,每家在自然语言识别这个领域的基础工具都差不多(intent和slot的准确率只有百分点的差异),因此听人话(识别)不是核心竞争力,讲人话才是(非控制类产品,任务型)。

 

8、对话流程:

ASR:讲用户的语音转化为文字(深度学习)

NLU:意图识别和实体提取,如图中intent是“订机票”,slot是“明天”(深度学习)

填表:选择intent是“订机票”的这张表,将已知的slot“明天”填到表格中

“NLG”:表格中缺什么就回答什么,如表中缺“出发地”就问“从哪里出发”,缺“目的地”就问“你要到哪里去”,NLG打引号说明现在还没有真正意义上的自然语言生成,即真正思维的生成

TTS:把回复的文本合成语音播出去

 

9、不要用轮次来衡量产品水平:在任务型对话系统里,“轮数的产生”是由填表的次数决定的,以“轮数多少”来衡量产品水平的方法,在任务型对话里完全无意义。硬要有意义,应该是:在达到目的且不影响体验的前提下,轮次越少越好。

 

10、常识的重要性:很多推理都是基于世界知识(包括常识)的,缺乏常识就没有推理的基础。

 

11、对话系统更大的挑战不是NLU:深度学习在对话系统里面,能做到的只是识别出用户讲的那部分,回复用户的那部分是需要人来设计表格、编程实现的。在产品层面,一旦用户谈及到表以外的内容,就会出现人工智障的情形。每个人自身都是一个自然语言处理系统,各不相同,希望设计出一次就能处理所有场景问题的对话系统,目前都无解。

 

12、高维与低维:在信息丰富度上,语言是贫瘠的,思想要更加丰富,对话是思想从高维度向低维度的投影,用语言来描述思维,是用低维来表达高维。因此,为了让别人理解你的思维,你需要尽可能全面、多维度地描述并还原它。

 

13、利用常识进行交流:人与人之间的交流是基于双方的共识进行的,当人接收到低维度的语言之后,就会结合常识和自身经历来重构一个思维模型,通过这个模型来理解语言所代表的含义。当对话双方对一件事情的理解一致时不需要再讲,那些共识之外的东西才是沟通的重点。

 

14、无因果不智能:影响对话至少包含“明文(含上下文)”、“场景模型”和“世界模型”3部分,但是深度学习只能处理基于明文的信息,对于场景模型和世界模型的感知、生成、基于模型的推理都无能为力,这也是深度学习不能实现真正智能的本质原因,即不能进行因果推理。

 

15、DL+GOFAI:DL(DeepLearning)+GOFAI(GoodOldFashionedAI,专家系统)是当前一切智能产品的设计思路。

 

16、降低用户的期望:当前的闲聊机器人都是开放式的,导致用户会以为什么都可以聊,但实际上由于产品本身缺乏场景模型、对用户的常识一无所知,用户很快就会碰壁并丧失兴趣。因此,在选择产品的Domain时,尽量远离那些严重依赖世界模型和常识推理才能进行对话的场景,并且不要鼓励用户期望对话系统能够输出很多有价值的话。

 

17、对话系统的核心价值:AI的ToC终极产品是智能助理,我们需要的是对话系统后面的思考能力、解决问题的能力,用来进一步替代用户的重复思考,而交互本身不是核心,它背后搭载的内容才是。技术不是对话智能类产品的壁垒,数据(非训练数据,而是服务数据、常识数据等)和设计才是。

PM需要站在人文和技术的十字路口来设计产品。

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇