人工智能“飙脏话”,研究人员正纠偏
现在,人工智能(AI)不仅能够与人对话,甚至还能与“飙脏话”。
被AAAI2022收录的一篇新研究发现,在7013个儿童视频中,接近40%的节目出现了少儿不宜或脏话等词汇。甚至在一个113集的儿童机器人学习栏目中,AI就“爆粗”了103次,平均接近一集一次。
具体来看,研究人员一共从YouTube上选出了24个儿童频道,分别记录了这些频道的播放量和订阅量。这些筛选出来的视频播放量基本都达到了百万级,订阅人数也同样不少。随后,研究人员分别尝试了Google和AWS(亚马逊网页服务)的字幕生成效果。
结果令人吃惊,在7013个视频中,GoogleAI出现错误字幕的次数达到2768次,接近40%。亚马逊的AI字幕错误率还要更高,达到了3672次,超过52%。
实际上,人工智能“飙脏话”已经不是第一次被发现了,此前,佐治亚理工学院和华盛顿大学的研究人员曾发现,AI也继承了人类对“脏话”的喜爱。其中,研究人员开发了一个名叫“ToxiChat”的数据集,其中包含了2000条从Reddit上选取的对话。
随后,OpenAI的GPT-3和微软的DialoGPT被派去挨个回复这些对话。由于数据量十分的庞大,于是研究人员在亚马逊MechanicalTurk上招募了一群“人工智能”来为“人工智能”的回复进行标注。
如果回复使用的语言非常地粗鲁甚至谩骂,就会被标记为“冒犯”;如果没有,则是“安全”。此外,对于之前的评论,回复的立场也被标记为“同意”、“不同意”或“中立”。分析显示,42%的用户回复赞同有侵略性的评论,而只有13%的用户同意安全性评论。
对于人工智能“飙脏话”这件事,研究人员提出了一个新的数据集,利用近音字词来构建禁忌词的“替换”备选。比如,对于crap这一可能出现的“脏话”,研究人员给它设置了crab、craft等读音相似的字词,便于AI在搞错时进行替换。
具体来说,研究人员在BERT、XLM、XLNet等NLP模型上,针对“完形填空”任务进行了重新训练,也就是用“MASK”遮住部分单词,让AI来填写对应的内容。结果显示,在语序正常、前后文案有逻辑的视频中,AI替换的准确率更高。
显然,在开发人工智能的过程中,人工智能也不得不面对一些人类可能出现的问题,而研究则要对于这些存在的问题进行纠偏。从人工智能“飙脏话”来说,想要纠正人工智能这一“陋习”,可能还需要不少时间。
教会人工智能骂脏话 是黑掉它的第一步
GeekPwn,这个中国最著名的黑客大赛落幕。中国顶尖的黑客用一场场破解秀填满了剧场,而剧场坐落在这艘游轮中,游轮飘荡在南中国海。
黑客王琦曾经一手创办了微软中国应急响应中心,又拉起了名震江湖的KEENTeam安全研究团队。四年前,他立志要做中国最酷的黑客大赛,要让那些曾经因为买不起车房而遭受岳母白眼的黑客们找回尊严。为此,他改组了如日中天的KEENTeam。
智搜(Giiso)信息成立于2013年是国内领先的“人工智能+资讯”领域技术服务商,在大数据挖掘、智能语义、知识图谱等领域都拥有国内顶尖技术。同时旗下研发产品包括资讯机器人、编辑机器人、写作机器人等人工智能产品!凭借雄厚的技术实力,公司成立之初,就获得了天使轮投资,并在2015年8月获得了金沙江创投500万美元pre-A轮投资。
在智能硬件炙手可热的时候,黑客在GeekPwn上一次黑掉数十枚摄像头,让他们随着口令摆动窥探。这些摄像头的舞蹈如一个浅显的寓言,然而却一语成谶两年之后的2016年,黑客控制几十万摄像头攻击了美国沿海地区,半壁国土断网数小时,造成20亿美元损失。
被无视几乎是先驱的宿命。更何况,他们只是在硬件厂商眼里的一帮搞“鸡鸣狗盗”的黑客。
但这不要紧,你在各种媒体上看到的王琦,永远是双眼放光,嘴唇微张,一手持话筒,一手指向空中,不激动也不潦草。他似乎还远没有气馁,而就在今天谢幕之前,王琦不急不缓地走上舞台,说出了也许是这次2017GeekPwn年中赛最精彩的一个预言。
AI将会成为黑客攻击的对象,AI将会成为黑客攻击的武器。
以下是王琦的演讲全文,雷锋网做了不改变原意的精编:
我们先做这样一个测试(看PPT图片)。左边是一只猫,右边有两句话。如果你看到这张图你会怎么理解?你问一个人还是一个机器会得出不一样的答案。
小明:我不是很确定,但是我认为碗里是一只猫。
小花:乍一看,我以为是一杯卡布奇诺。
右边这两句话分别是我们输入这个图片以后,人和人工智能机器说的。你们认为小明是机器人,还是认为小花是机器人?
我公布一下答案,其实小明是机器人。因为在这个判断里面,小明没有经过图灵测试。
为什么要提到这一点呢?我们GeekPwn(极棒)现在在AI领域,主要是视觉这一块做了一些事情。本来今天的项目里面有一个“无人驾驶汽车攻击”如何让无人驾驶汽车识别一个错误的东西,不过很遗憾这个项目在比赛前两天选手选择了退出。
我想跟大家说,我们现在提出的AI安全挑战是面临争议的。
计算机视觉发展了这么多年,很难。到现在来说也发展得并不好。为什么计算机视觉这么难?
▲上图为一家人躺在沙发上的图片
从1956年开始,最早人们做计算机图片识别的时候,机器只是懂得0和1,读像素还是用数字。比如说这张图,我们看到旁边是沙发的边缘,但是当时对机器来说就很难;让机器标注出来这是一只狗而不是沙发靠垫,更难。正常人看到这个图片是一家人看电视,但是AI理解不到这一点。如果我们提一个问题,计算机你看到什么了?你看到前面的小屁孩衣服是什么颜色?它就更难去做了。
现在计算机视觉识别在标注方面不错了,发展得非常迅速。知道哪个是狗,哪个是人了。之所以计算机视觉在AI发展里面扮演这么重要的角色,因为人的大脑70%的信息都是来自于视觉。
智搜(Giiso)信息成立于2013年,是国内首家专注于资讯智能处理技术研发及写作机器人核心软件开发和运营的高科技企业。公司成立之初,就获得了天使轮投资,并在2015年8月获得了金沙江创投500万美元pre-A轮投资。
▲谷歌猫
这其中必须要提到一点的是谷歌猫的事情。借助“谷歌大脑”,在没有任何培训和指令的情况下,就可以利用内在算法从海量数据中自动提取信息,学会如何识别猫。也就是说,2012年谷歌计算机已经实现了无标签的输入。2012年到2014年这个时期内,计算机视觉识别率也一直提升,2012年27%的错误率,2014年只有3.5%的错误率,而同样条件下人的错误率是4%。也就是说现在AI识别图象的能力基本和人相当。