博舍

人工智能 = 人工智障(史上最全的人工智能机器学习、深度学习教程合集目录) 如何把人工智能变成人工智障呢视频教学讲解下载

人工智能 = 人工智障(史上最全的人工智能机器学习、深度学习教程合集目录)

文章目录机器学习激活函数和函数偏差(bias)感知器回归梯度下降生成学习反向传播深度学习最优化和降维长短期记忆(LSTM)卷积神经网络(CNN)递归神经网络(RNN)强化学习生成对抗网络(GAN)多任务学习NLP深度学习和NLP词向量编码器-解码器Python实战案例Scipy和numpyscikit学习TensorflowPyTorch数学线性代数概率论微积分我将这篇文章分为四个部分:机器学习,NLP,Python和数学。我在每个部分都包含了一些主题,但由于机器学习是一个非常复杂的学科,我不可能包含所有可能的主题。

该文档是全英文解释,可翻译后再进行学习

机器学习

从机器学习入手(machinelearningmastery.com)

机器学习很有趣!(medium.com/@ageitgey)

机器学习规则:ML工程的最佳实践(martin.zinkevich.org)

机器学习速成课程:第一部分,第二部分,第三部分(伯克利机器学习)

机器学习理论及其应用简介:用一个小例子进行视觉教程(toptal.com)

机器学习的简单指南(monkeylearn.com)

我应该使用哪种机器学习算法?(sas.com)

机器学习入门(sas.com)

初学者机器学习教程(kaggle.com/kanncaa1)

激活函数和函数

Sigmoid神经​​元(neuralnetworksanddeeplearning.com)

激活函数在神经网络中的作用是什么?(quora.com)

神经网络中常见的激活函数的优缺点比较列表(stats.stackexchange.com)

激活函数及其类型对比(medium.com)

理解对数损失(exegetic.biz)

损失函数(斯坦福CS231n)

L1与L2损失函数(rishy.github.io)

交叉熵成本函数(neuralnetworksanddeeplearning.com)

偏差(bias)

偏差在神经网络中的作用(stackoverflow.com)

神经网络中的偏差节点(makeyourownneuralnetwork.blogspot.com)

什么是人工神经网络的偏差?(quora.com)

感知器

感知器(neuralnetworksanddeeplearning.com)

感知器(natureofcode.com)

单层神经网络(感知器)(dcu.ie)

从Perceptrons到DeepNetworks(toptal.com)

回归

线性回归分析介绍(duke.edu)

线性回归(ufldl.stanford.edu)

线性回归(readthedocs.io)

Logistic回归(readthedocs.io)

机器学习的简单线性回归教程(machinelearningmastery.com)

机器学习的Logistic回归教程(machinelearningmastery.com)

Softmax回归(ufldl.stanford.edu)

梯度下降

在梯度下降中学习(neuralnetworksanddeeplearning.com)

梯度下降(iamtrask.github.io)

如何理解梯度下降算法(kdnuggets.com)

梯度下降优化算法概述(sebastianruder.com)

优化:随机梯度下降(斯坦福CS231n)

生成学习

生成学习算法(斯坦福CS229)

朴素贝叶斯分类器的实用解释(monkeylearn.com)

支持向量机

支持向量机(SVM)简介(monkeylearn.com)

支持向量机(斯坦福CS229)

线性分类:支持向量机,Softmax(Stanford231n)

反向传播

你应该了解的backprop(medium.com/@karpathy)

你能给出神经网络反向传播算法的直观解释吗?(github.com/rasbt)

反向传播算法的工作原理(neuralnetworksanddeeplearning.com)

通过时间反向传播和消失的渐变(wildml.com)

时间反向传播的简单介绍(machinelearningmastery.com)

反向传播,直觉(斯坦福CS231n)

深度学习

YN²深度学习指南(yerevann.com)

深度学习论文阅读路线图(github.com/floodsung)

Nutshell中的深度学习(nikhilbuduma.com)

深度学习教程(QuocV.Le)

什么是深度学习?(machinelearningmastery.com)

人工智能,机器学习和深度学习之间有什么区别?(nvidia.com)

深度学习–简单介绍(gluon.mxnet.io)

最优化和降维

数据降维减少的七种技术(knime.org)

主成分分析(斯坦福CS229)

Dropout:一种改善神经网络的简单方法(Hinton@NIPS2012)

如何训练你的深度神经网络?(rishy.github.io)

长短期记忆(LSTM)

长短期记忆网络的通俗介绍(machinelearningmastery.com)

了解LSTM神经网络Networks(colah.github.io)

探索LSTM(echen.me)

任何人都可以学习用Python编写LSTM-RNN(iamtrask.github.io)

卷积神经网络(CNN)

卷积网络介绍(neuralnetworksanddeeplearning.com)

深度学习和卷积神经网络(medium.com/@ageitgey)

ConvNets:模块化视角(colah.github.io)

了解卷积(colah.github.io)

递归神经网络(RNN)

递归神经网络教程(wildml.com)

注意和增强的递归神经网络(distill.pub)

递归神经网络的不合理有效性(karpathy.github.io)

深入了解递归神经网络(nikhilbuduma.com)

强化学习

强化学习初学者入门及其实施指南(analyticsvidhya.com)

强化学习教程(mst.edu)

学习强化学习(wildml.com)

深度强化学习:来自像素的乒乓球(karpathy.github.io)

生成对抗网络(GAN)

对抗机器学习简介(aaai18adversarial.github.io)

什么是生成性对抗网络?(nvidia.com)

滥用生成对抗网络制作8位像素艺术(medium.com/@ageitgey)

GenerativeAdversarialNetworks简介(TensorFlow中的代码)(aylien.com)

初学者的生成对抗网络(oreilly.com)

多任务学习

深度神经网络中多任务学习概述(sebastianruder.com)

NLP

自然语言处理很有趣!(medium.com/@ageitgey)

自然语言处理神经网络模型入门(YoavGoldberg)

自然语言处理权威指南(monkeylearn.com)

自然语言处理简介(algorithmia.com)

自然语言处理教程(vikparuchuri.com)

自然语言处理(NLP)来自Scratch(arxiv.org)

深度学习和NLP

深度学习适用于NLP(arxiv.org)

NLP的深度学习(没有魔法)(RichardSocher)

了解NLP的卷积神经网络(wildml.com)

深度学习、NLP、表示(colah.github.io)

最先进的NLP模型的新深度学习公式:嵌入、编码、参与、预测(explosion.ai)

使用Torch深度神经网络进行自然语言处理(nvidia.com)

使用Pytorch进行深度学习NLP(pytorich.org)

词向量

使用词袋模型解决电影评论分类(kaggle.com)

词嵌入介绍第一部分,第二部分,第三部分(sebastianruder.com)

词向量的惊人力量(acolyer.org)

word2vec参数学习解释(arxiv.org)

Word2Vec教程- Skip-Gram模型,负抽样(mccormickml.com)

编码器-解码器

深度学习和NLP中的注意力机制和记忆力模型(wildml.com)

序列模型(tensorflow.org)

使用神经网络进行序列学习(NIPS2014)

机器学习很有趣第五部分:深度学习的语言翻译和序列的魔力(medium.com/@ageitgey)

如何使用编码器-解码器LSTM来回显随机整数序列(machinelearningmastery.com)

tf-seq2seq(google.github.io)

Python

机器学习速成课程(google.com)

令人敬畏的机器学习(github.com/josephmisiti)

使用Python掌握机器学习的7个步骤(kdnuggets.com)

一个示例机器学习笔记(nbviewer.jupyter.org)

使用Python进行机器学习(tutorialspoint.com)

实战案例

如何在Python中从头开始实现感知器算法(machinelearningmastery.com)

在Python中使用Scratch实现神经网络(wildml.com)

使用11行代码在Python中实现神经网络(iamtrask.github.io)

使用Python实现你自己的k-NearestNeighbor算法(kdnuggets.com)

来自Scatch的ML(github.com/eriklindernoren)

Python机器学习(第2版)代码库(github.com/rasbt)

Scipy和numpy

Scipy讲义(scipy-lectures.org)

PythonNumpy教程(斯坦福CS231n)

Numpy和Scipy简介(UCSBCHE210D)

Python中的科学家速成课程(nbviewer.jupyter.org)

scikit学习

PyConscikit-learn教程索引(nbviewer.jupyter.org)

scikit-learn分类算法(github.com/mmmayo13)

scikit-learn教程(scikit-learn.org)

简短的scikit-learn教程(github.com/mmmayo13)

Tensorflow

Tensorflow教程(tensorflow.org)

TensorFlow简介-CPU与GPU(medium.com/@erikhallstrm)

TensorFlow(metaflow.fr)

Tensorflow中的RNN(wildml.com)

在TensorFlow中实现CNN进行文本分类(wildml.com)

如何使用TensorFlow运行文本摘要(surmenok.com)

PyTorch

PyTorch教程(pytorch.org)

PyTorch的简单介绍(gaurav.im)

教程:PyTorch中的深度学习(iamtrask.github.io)

PyTorch示例(github.com/jcjohnson)

PyTorch教程(github.com/MorvanZhou)

深度学习研究人员的PyTorch教程(github.com/yunjey)

数学

机器学习数学(ucsc.edu)

机器学习数学(UMIACSCMSC422)

线性代数

线性代数直观指南(betterexplained.com)

程序员对矩阵乘法的直觉(betterexplained.com)

了解Cross产品(betterexplained.com)

了解Dot产品(betterexplained.com)

用于机器学习的线性代数(布法罗大学CSE574)

用于深度学习的线性代数备忘单(medium.com)

线性代数评论与参考(斯坦福CS229)

概率论

用比率理解贝叶斯定理(betterexplained.com)

概率论入门(斯坦福CS229)

机器学习的概率论教程(斯坦福CS229)

概率论(布法罗大学CSE574)

机器学习的概率论(多伦多大学CSC411)

微积分

如何理解导数:商数规则,指数和对数(betterexplained.com)

如何理解导数:产品,动力和链条规则(betterexplained.com)

矢量微积分:了解渐变(betterexplained.com)

微分学(斯坦福CS224n)

微积分概述(readthedocs.io)

原文地址:https://yq.aliyun.com/articles/640631

【科普】人工智能秒变人工智障:如何误导神经网络指鹿为马

本文用人话介绍了人工智能与信息安全的交叉前沿研究领域:深度学习攻防对抗。包括用对抗样本修改图片误导神经网络指鹿为马、针对不同深度学习模型的逃逸攻击、白盒攻击与黑盒攻击、NIPS2017神经网络对抗攻防赛清华三连冠团队算法模型解读,以及未来人工智能面临的信息安全挑战。部分内容来自于2018CNCC中国计算机大会—人工智能与信息安全分会场报告。

作者:张子豪(同济大学在读研究生)

微信公众号:子豪兄的科研小屋回复“指鹿为马”即可看到本文原文

发布于2018-10-29

自己人!全文无数学推导,请放心食用。

文章目录1、图片干扰:人工智能秒变人工智障大熊猫被误判为长臂猿阿尔卑斯山被误判为狗人工智障:人工也是智障2、对抗样本:让神经网络指鹿为马白盒攻击与黑盒攻击对抗样本改变了图像的什么?噪音!对抗样本有多坚挺?截个图换个模型就失效?3、NIPS2017神经网络对抗攻防赛比赛分组规则攻击组:对抗样本生成策略防御组:图像降噪策略4、邪恶的未来应用说者无心,听者有意:误导汽车的语音指令(已实现)釜底抽薪:直接破解本地AI模型攻击人脸识别,让刷脸支付和门禁系统危机重重攻击道路交通标志,让自动驾驶汽车识别出错误含义5、参考文献与扩展阅读1、图片干扰:人工智能秒变人工智障

胖虎和吴亦凡,边界是如此的模糊。

王力宏和张学友,看上去竟如此的神似。

人脸识别、自动驾驶、刷脸支付、抓捕逃犯、美颜直播……人工智能与实体经济深度结合,彻底改变了我们的生活。神经网络和深度学习貌似强大无比,值得信赖。

殊不知,人工智能是最聪明的,却也是最笨的,其实只要略施小计就能误导最先进的深度学习模型指鹿为马。

大熊猫被误判为长臂猿

早在2015年,“生成对抗神经网络GAN之父”IanGoodfellow在ICLR会议上展示了攻击神经网络欺骗成功的案例,在原版大熊猫图片中加入肉眼难以发现的干扰,生成对抗样本。就可以让Google训练的神经网络误认为它99.3%是长臂猿。

阿尔卑斯山被误判为狗

2017NIPS对抗样本攻防竞赛案例:阿尔卑斯山图片篡改后被神经网络误判为狗、河豚被误判为螃蟹。对抗样本不仅仅对图片和神经网络适用,对支持向量机、决策树等算法也同样有效。

人工智障:人工也是智障

在2018年,IanGoodfellow再发大招,不仅欺骗了神经网络,还能欺骗人眼。详情见论文AdversarialExamplesthatFoolbothComputerVisionandTime-LimitedHumans,文中提出了首个可以欺骗人类的对抗样本。下图左图为猫咪原图,经过对抗样本干扰之后生成右图,对于右图,神经网络和人眼都认为是狗。

这篇论文行文流畅、通俗易懂,适合新手阅读。你也可以用两分钟观看这篇论文的视频介绍。

​下图中,绿色框为猫的原图。左上角显示了攻击的目标深度模型数量越多,生成的图像对人类来说越像狗。左下角显示了针对10个模型进行攻击而生成的对抗样本,当eps=8的时候,人类受试者已经把它认成狗了。

2、对抗样本:让神经网络指鹿为马

这就是对机器学习模型的逃逸攻击,它能绕过深度学习的判别并生成欺骗结果。攻击者在原图上构造的修改被称为“对抗样本”。神经网络对抗样本生成与攻防是一个非常有(zhuang)趣(bi)且有前景的研究方向,但常人难以轻易理解内在原理,下面子豪兄就用人话向你娓娓道来。

这是一篇介绍对抗样本生成基本原理的通俗易懂的文章:对抗样本的基本原理,里面甚至教你用开源人工智能框架Keras生成对抗样本攻击知名的InceptionV3模型,把猪识别成烤面包机。

除此之外,人工智能还面临模型推断攻击、拒绝服务攻击、传感器攻击等多种信息安全挑战。

白盒攻击与黑盒攻击

逃逸攻击可分为白盒攻击和黑盒攻击。白盒攻击是在已经获取机器学习模型内部的所有信息和参数上进行攻击,令损失函数最大,直接计算得到对抗样本;黑盒攻击则是在神经网络结构为黑箱时,仅通过模型的输入和输出,逆推生成对抗样本。下图左图为白盒攻击(自攻自受),右图为黑盒攻击(用他山之石攻此山之玉)。

对抗样本改变了图像的什么?噪音!

对抗样本会在原图上增加肉眼很难发现的干扰,但依旧能看得出来和原图的区别,下图左图为对抗样本,右图为熊猫原图。

​对抗样本不是仅在最后预测阶段产生误导,而是从特征提取过程开始就产生误导,下图展示了第147号神经元分别在正常深度学习模型和对抗样本中的关注区域。在正常模型中,第147号神经元重点关注小鸟的头部信息。在对抗样本中,第147号神经元则完全被误导了,关注的区域杂乱无章。同时也说明,对抗样本不是根据语义生成的,它并不智能。而且,正如接下来讲述的,对抗样本对图片预处理过程非常敏感,任何区域截图、放大缩小、更换模型都很容易让对抗样本失效。

对抗样本有多坚挺?截个图换个模型就失效?

​其实,如果你把那张经过攻击篡改之后的大熊猫图片稍微放大或缩小,或者直接截一部分图,然后放到其它公开的图像识别模型上运行(比如百度识图),识别结果依旧是大熊猫。这意味着对抗样本仅对指定的图片和攻击模型生效,对诸如区域截图、放大缩小之类的预处理过程是非常敏感的。也就是说,如果还想欺骗更多其它的深度学习模型,就要在训练生成对抗样本时尽可能包含更多的已知深度学习模型。

而在NIPS2017神经网络对抗攻防赛中,清华大学的学霸们正是采用了多种深度学习模型集合攻击的方案,他们通过Image.Net网站上的三万张图片进行训练,提出七种攻击模型。集合攻击考虑了InceptionV3、ResNet、InceptionResNetV2三种已知的深度学习模型,训练出的攻击样本具备良好的普适性和可迁移性。

下图展示了他们使用FGSM模型进行攻击的测试,横行为攻击模型名称,竖列为防守模型名称,表格中的数字表示对于每1000张攻击图片,防守模型成功防守的图片数目,数字越大,表示竖列模型防守越有效,数字越小,表示横行模型进攻越有效。

红色表示用同一个模型进行攻防(白盒攻击)。

可以看出:

1、白盒攻击成功率远远大于黑盒成功率。如何提高黑盒攻击的可迁移性,实现跨模型的黑盒攻击,是一个重要问题。

2、由Adv-Incv3竖列看出,经过对抗训练之后的防守模型非常强悍。甚至可以达到94.1%的防守成功率。因此,将对抗样本引入训练数据集进行对抗训练是有效的防守策略,相当于士兵平时训练的时候就采用真实战场条件,上了战场自然不怂。

3、由Ens4-Adv-Incv3竖列看出,经过多个模型集合训练之后的防守模型非常强悍。正所谓“用五岳他山之石攻此山之玉”、“曾经沧海难为水”,使用多个深度模型训练出的防守模型必然是集众家之长。

下面,我们正式介绍这个群英荟萃、神仙打架的竞赛。

3、NIPS2017神经网络对抗攻防赛

2017年,“生成对抗神经网络GAN之父”IanGoodfellow牵头组织了NIPS的AdversarialAttacksandDefences(神经网络对抗攻防竞赛),清华大学博士生董胤蓬、廖方舟、庞天宇及指导老师朱军、胡晓林、李建民、苏航组成的团队在竞赛中的全部三个项目中得到冠军。以下是清华大学参赛师生赛后撰写的总结和相关报告。

清华大学团队包揽三项冠军,NIPS2017对抗样本攻防竞赛总结

清华大学廖方舟:产生和防御对抗样本的新方法|分享总结

朱军:深度学习中的对抗攻击与防守—2018中国计算机大会人工智能与信息安全分会场

动量迭代攻击和高层引导去噪:对抗样本攻防的新方法

清华参赛队攻击组论文:BoostingAdversarialAttackswithMomentum

清华参赛队防御组论文:DefenseagainstAdversarialAttacksUsingHigh-LevelRepresentationGuidedDenoiser

神仙打架看不懂?请看本文作者张子豪撰写的另一篇人类能看得懂的科普文:神仙打架看不懂?用人话解读NIPS神经网络攻防赛清华三连冠团队模型算法。这篇文章详细介绍了基本算法FGSM、攻防技巧、比赛规则、清华参赛队的模型可迁移性优化策略、降噪优化算法。

参赛选手廖方舟同学Kaggle最高排名世界第10,是DataScienceBowl2017冠军。

比赛分组规则

比赛为三组选手互相进行攻防

TargetedAttack组:组委会给5000张原图和每张图对应的目标误导结果数据集,指定要求指鹿为马Non-targetedAttack组:只要认不出是鹿就行Defense组:正确识别已经被其它参赛组对抗样本攻击的图片

攻击组:对抗样本生成策略集合攻击—集百山之石,攻此山之玉:攻击多个已知深度学习模型的集合,而不是逐个击破。比方说,把ResNet、VGG、Inception三个模型视作统一的大模型一起攻击,再用训练好的模型攻击AlexNet,成功率就会大大提高。可以在模型底层、预测值、损失函数三个层面进行多个模型的集合攻击。采用这个方法,可以大大提高对抗样本攻击的普适性和可迁移性。采用改进的FGSM模型:多步迭代、带目标、引入动量,大大提高对抗样本的可迁移性。防御组:图像降噪策略对抗训练—把真实战场作为训练场:在训练模型的时候就加上对抗样本(对抗训练)。对抗样本随模型训练的过程在线生成。虽然很耗时,但训练出的模型鲁棒性很强。改进的HGD降噪算法:像素层面上的去噪并不能真正去掉噪音,传统的像素去噪方法全都无效。采用基于CNN的改进HGD降噪算法,仅使用750张训练图片,大大节省训练时间,且模型可迁移性好。4、邪恶的未来应用说者无心,听者有意:误导汽车的语音指令(已实现)

2018年10月25日,杭州,中国计算机大会,人工智能与信息安全分会。

第三位报告人是中国科学院大学陈恺教授。分享题目是“人工智能时代下的安全攻防”。本次报告讲述了人工智能在网络安全工作中的应用,并通过对歌曲进行干扰生成错误微信语音指令进而发动攻击的例子,讲述了人工智能算法的脆弱性与未来攻防发展趋势。

陈恺教授简介:中国科学院信息工程研究所研究员,中国科学院大学教授、博士生导师。信息安全国家重点实验室副主任,《Cybersecurity》编辑部主任。国家“万人计划”青年拔尖人才、北京市“科技新星”。2010年获中国科学院研究生博士学位,美国宾州州立大学博士后。中国保密协会隐私保护专业委员会委员,中国计算机学会系统软件专委会委员。主要研究领域包括软件与系统安全、人工智能安全。在IEEES&P、USENIXSecurity、ACMCSS、ICSE、ASE等发表论文70余篇;曾主持和参加国家重点研发计划、国家自然科学基金、863计划等国家部委课题40余项。

在报告中,陈恺教授展示了他们的最新成果:对汽车音响播放的歌曲进行干扰编码,在人耳听起来仍然是原曲的情况下就可以让微信的语音输入法获得错误的“Openthedoor”指令。但歌曲很容易受外界噪音干扰。本文作者张子豪提出可以使用树莓派微型电脑发射FM调频广播播放干扰之后的歌曲,直接干扰汽车收音机,陈恺博士高度赞赏了这个建议并表示他们已经尝试过这个方法,但决定干扰成功率的关键还是在于过滤外界噪音干扰。

釜底抽薪:直接破解本地AI模型

第一位报告人是360智能安全研究院负责人李康。分享题目是“人工智能系统实现中的安全风险”。本次报告通过丰富的攻防案例展示了人工智能应用中的安全风险及应对方法。

嘉宾简介:李康,360智能安全研究院负责人。清华计算机本科,耶鲁大学法学硕士,俄勒冈研究院计算机博士。主要研究系统与网络安全。李博士是网络安全对抗赛CTF最早的实践者,他是XCTF联赛的联合发起人,并担任清华大学蓝莲花战队的启蒙老师。

​人工智能与信息安全的下一个热点:深度学习模型参数被窃取的风险和数据安全。​随着边缘计算和智能移动终端时代的到来,在移动终端部署本地AI应用越来越广泛,从iPhoneX的刷脸解锁,到华为、高通部署手机端的AI芯片。在移动终端本地运行AI应用,可有效解决延迟、传输带宽、用户隐私泄露等问题,但同时也带来本地深度学习模型的数据安全问题。经过简单的逆推,就可以破解很多本地的AI应用,甚至可以知道其中的Caffe模型的基本参数,有些开发者会采用AES加密把模型封装起来,但殊不知在AES密钥也得保存在本地文件中。有时甚至根据追踪AI应用对内存的访问情况,就可以判断出这个模型的神经网络结构。所以AI开发者在向移动端和嵌入式设备中部署AI应用时,一定要事先请教安全团队,确保模型数据安全。

攻击人脸识别,让刷脸支付和门禁系统危机重重攻击道路交通标志,让自动驾驶汽车识别出错误含义5、参考文献与扩展阅读

2018中国计算机大会:人工智能与信息安全分论坛

神仙打架看不懂?用人话解读NIPS神经网络攻防赛清华三连冠团队模型算法

清华大学团队包揽三项冠军,NIPS2017对抗样本攻防竞赛总结

AdversarialAttacksandDefencesCompetition

ExplainingandHarnessingAdversarialExamples

AdversarialExamplesthatFoolbothComputerVisionandTime-LimitedHumans

Goodfellow最新对抗样本,连人类都分不清是狗是猫

动量迭代攻击和高层引导去噪:对抗样本攻防的新方法

清华大学廖方舟:产生和防御对抗样本的新方法|分享总结

两分钟论文:对抗样本同时骗过人类和计算机视觉@雷锋字幕组

谷歌新论文发现:对抗样本也会骗人

作者介绍:

张子豪,同济大学在读研究生。致力于用人类能听懂的语言向大众科普人工智能前沿科技。目前正在制作《说人话的深度学习视频教程》、《零基础入门树莓派趣味编程》等视频教程。西南地区人工智能爱好者高校联盟联合创始人,重庆大学人工智能协会联合创始人。充满好奇的终身学习者、崇尚自由的开源社区贡献者、乐于向零基础分享经验的引路人、口才还不错的程序员。

说人话的零基础深度学习、数据科学视频教程、树莓派趣味开发视频教程等你来看!

微信公众号:子豪兄的科研小屋Github代码仓库:TommyZihao

同济大学开源软件协会

西南人工智能爱好者联盟重庆大学人工智能协会

大型算法翻车现场:人工智能还是人工智障

钛媒体注:本文来源于微信公众号卫夕指北(ID:weixizhibei),作者:卫夕,钛媒体经授权发布。

你相信算法吗?

无论你的答案是什么,我们的生活已经被算法彻底改变了——我们聊微信、刷抖音、逛淘宝的背后都是无数个算法在支撑,算法从开始简单的If、then、else规则变成了越来越复杂以至于连程序员也不清楚内部运作规则的深度神经网络,它在变得复杂的同时也在彻底的变革每一个产业,人们离不开算法,媒体喜欢算法,在一个个故事的渲染下,算法似乎变得无所不能,卫夕今天先带大家一起看一些算法让人叹为观止的案例——

1.近年来美国马里兰州等地出现一种新型的毒品犯罪:在豪宅里关起门来,利用LED灯种大麻。

在美帝,没有证据根本不可能破门搜查,警察非常头疼,然而在2010年一个警察局通过电力公司搞到了当地智能电表的数据,通过对用电量和用电模式的算法分析,他们成功地判断并抓到了一批毒贩!

2.2017年,硅谷的一位工程师想去Reddit工作,他思路清奇——首先写了一篇水平很高的、关于如何改进Reddit推荐算法的文章,接着他通Reddit网站CEO霍夫曼在Facebook公开账号、寻找到一些独特的广告定向,比如霍夫曼的性别、年龄、居住地、关注了哪些主页等等,然后他通过Facebook的广告系统、使用这些定向算法把自己写的文章投放给了197个人,居然就精准命中了霍夫曼,而这次推广仅仅花了他10.6美元,最后他的文章被霍夫曼认可,而他也被成功录取。

3.2012年7月,一位愤怒的爸爸走进了美国零售巨头塔吉特的弗吉尼亚分店,要求见经理,原因是他还在上高中的女儿收到了塔吉特寄送给她女儿的婴儿床和婴儿衣服的优惠券——“你们这是什么意思?我的女儿只有16岁,你们是在鼓励她怀孕吗?”

塔吉特的经理匆忙道歉表示可能是他们的工作失误,然而2个月后,这位父亲打电话过来为自己之前的行为表示抱歉——她女儿的确怀孕了,原来,塔吉特设计的一套特别的算法系统,它会根据零售用户的购买历史来判断一个女生是否处于孕育期,这个算法是如此准确,以至于它居然比孩子的父亲更早地知道女孩是否怀孕。

的确,这三个故事只是算法应用的冰山一角,如今,算法可以识别我们的声音和图像,算法似乎在变得无所不能。

然而,算法真的有那么美好吗,在算法给我们带来便利的同时我们是否真的认真思考过算法带来的弊端,我们是否真的思考过如何面对算法给可能给我们带来的灾难。

今天的算法其实还远没有到完善的地步,很多被称之为人工智能的东西某种意义上只能算人工智障,卫夕带大家看几个大型算法翻车现场——

一、翻车的超级计算机

2017年3月19日,香港地产大亨李建勤(LiKin-Kan)在迪拜饭店的午餐中第一次遇见到了意大利金融家科斯塔(RaffaeleCosta),科斯塔向李描述了一个机器人对冲基金,他的基金由奥地利的AI公司42.CX开发的一款名为K1的超级计算机管理,K1通过抓取实时新闻和社交媒体的数据,以深度学习算法评估投资者的情绪并预测美国股票期货,然后发送指令进行交易。

李看到之后非常感兴趣,在接下来的几个月中,Costa与Li共享了K1的模拟结果,数据表明K1取得了超过两位数的回报,李很兴奋,把自己的25亿美元的资产交给了K1来打理,准备在金融市场中大赚一笔。

然而现实是残酷的,超级计算机K1并没有给李带来丰厚的回报,相反到2018年2月,它经常亏损,甚至一天有时候就亏损超过2000万美元,李建勤终于明白算法在金融市场是不起作用的,他一怒之下将科斯塔告上了法庭,声称他夸大了超级计算机的作用。

二、失控的亚马逊智能助手

2017年7月5日,德国汉堡一名叫奥利弗的普通居民在朋友家住了一个晚上,他不知道的是,在他离开的那个晚上,家里的亚马逊智能音箱Alexa突然开始在凌晨1:50以最高的音量开始播放摇滚乐,熟睡的邻居被震天的音箱吵醒,无奈的邻居们最终只能选择报警。

警察到达现场选择撬开门锁破门而入,才发现罪魁祸首只是一个小小的智能音箱,他们拔下了Alexa的插头,然后给奥利弗安装了新的锁,而在朋友家过了一夜的奥利弗对此事件一无所知,再次回到家时,一头雾水的奥利弗只能跑一趟警局并且支付了一笔并不便宜的换锁账单。

无独有偶,2017年1月,加利福尼亚州的CW6电视频道报道了一个AmazonEcho扬声器的漏洞,说的是Alexa识别不了家里的成员,于是一位加州5岁的小女孩就用智能音箱给自己买了超过300美元的饼干,当他们父母收到货的时候都傻眼了,而让人啼笑皆非的是,主持人播这条新闻的时候为了演示说了一句:“Alexa,给我订购一个玩具屋”,结果圣地亚哥多人报告说,他们的音箱收到了电视的语音真的下单购买了玩具屋,亚马逊后来不得不为此道歉。

三、变坏的微软机器人

2016年3月,微软在Twitter上开发了一个名为Tay的AI聊天机器人,该机器人是通过挖掘网民对话而构建的,Tay的第一句话是“helloooooooworld!!!”,起初它善解人意、活泼可爱,和Twitter上的网民聊得非常开心。

然而,在短短的12小时之后,Tay从一位友好的机器人变成了一个满嘴脏话、充满种族主义并说出“女权主义者都应该死在地狱里烧死”恶魔机器人,这让开发它的微软经历了场公关噩梦,微软被迫迅速将Tay关闭,而这离它上线还没有超过24小时;

Tay是人工智能映射人类偏见的一个缩影,目前的人工智能算法最本质的规则就是它需要有大量的数据对其进行训练——如果训练的数据本身就带着偏见、错误以及极端的思想,训练的结果就会偏离正常的结果........

四、危险的沃森癌症机器人

2013年,IBM与德克萨斯大学MD安德森癌症中心合作开发“WatsonforOncology”,即沃森的癌症机器人,它的目标是识别并治愈癌症,IBM在新闻稿中宣称“沃森癌症机器人的使命是让临床医生能够从癌症中心丰富的患者和研究数据库中发现宝贵的见解”,然而最后的结果怎么样呢?

新闻机构StatNews在2018年7月查阅了IBM的内部文件,发现IBM的Watson有时候会给医生提出错误的、甚至是危险的癌症治疗建议,其中包括Watson建议医生给有严重出血症状的癌症患者使用会加重出血的药物........

于是2017年2月,在花费了6200万美元之后,德克萨斯大学宣布终止和IBM合作的这个项目,算法有时候对医疗行业而言并不管用;

五、充满歧视的再犯罪算法

在美国,罪犯在出狱之前会进行一个再犯罪的评估,用于判断是否合适出狱已经出狱后是否需要采取必要监视措施。

那么如何评估一个罪犯的再犯罪概率呢?答案是——算法!美国司法体系采用了一家名为Northpointe的公司推出的风险评估产品,Northpointe的核心产品是根据137个问题的答案通过特定的算法得出的一组分数,这些问题一些是和罪犯本身相关的直接个人信息,比如之前犯罪的类型、日期、频率、出生年月、性别等等,有一些则是提问由罪犯本人回答,比如“您的父母或者兄弟姐妹中有一个曾经被送进监狱或监狱吗?”、“您有多少朋友碰过大麻?”、“你是否同意饥饿的人有权偷窃?”之类的问题。

值得注意的是,在这些问题中种族不是问题之一,即所有的这些问题都不会提及罪犯的种族;

然而近年有学者发现,该算法给黑人带来的高再犯风险评分是白人的两倍,在洛杉矶市,一名轻微犯罪的黑人妇女被标记为“高风险”,而一名曾两次武装抢劫的白人被标记为“低风险”,而结果也证明那位妇女并没有犯罪,但那名男子则继续进行盗窃,这一风险评估产品目前在美国引起了黑人团体广泛的质疑。

六、形形色色的人工智障

事实上,算法造成的啼笑皆非甚至危险的故事广泛存在,至少在现阶段,在很多领域,人工智能在某些时候只能称之为人工智障——

美国911以后反恐成为国家安全的重点,美国安全部门会根据姓名、出生地、宗教信仰、人脸识别算法、历史行为数据——例如所有旅行数据等等,会对每一位航空旅客是恐怖分子的嫌疑度进行打分,而经常出现一些无辜的人因为疑似恐怖分子,而经常在机场被羁留检查,多次错过飞机,这样的事件每年会超过500起;

谷歌的安卓系统会自带一个App——Photos,这个加入了人工智能算法的应用能自动识别人脸、物品等,功能十分强大,然而2015年6月,一位网民在Twitter上发帖称:“谷歌,我的女朋友不是大猩猩”,原来,谷歌Photos将他女朋友的照片识别成了大猩猩;

Facebook具有一项称为“回忆”的功能,可以向用户突出显示前几年在此日期发生的事情,想起令人难忘的回忆,但Facebook还是低估了一些极端情况,例如它会在家人死亡的周年纪念日显示家人的照片,或者它可能会要求自己向已经去世的朋友说生日快乐。

2011年,一本有关苍蝇的生物学教科书在亚马逊上的定价为2300万美元。后来发现原因是两个卖家,他们设置了算法来观察彼此的价格,然后重置自己的价格。

2012年,《华尔街日报》报道了办公用品公司史泰博的算法歧视行为,史泰博先判断用户所在的位置附近有没有卖很多卖办公用品的实体店,如果20公里之内没有,则判断用户大概率只能在网上买,于是它的网上商城就会给这些顾客显示一个很高的价格,在这个场景里,它针对的不是一个人,而是这个区域里的一群人,即使附近的人互相交流也看不出来。

中国很多城市的智能交通摄像头配备了人工智能算法,用来检测和识别在红灯时乱穿马路者,然而最近宁波的摄像头意外曝光了格力总裁董明珠乱穿马路的照片,原来摄像头将董明珠在公交车广告上的头像识别成了行人;

2018年3月20日凌晨,Uber公司在美国坦佩市进行自动驾驶道路测试时,撞到一名叫伊莱恩的49岁中年女子,致后者当场死亡,当时,伊莱恩正走在人行横道,汽车在发生撞击前5.6秒钟将其错误识别为汽车,撞击前5.2秒时又将其识别为其他物体,此后系统发生了混乱,在“汽车”和“其他”之间摇摆不定,浪费了大量的时间,因此车辆没有及时刹车,酿成悲剧;

好,看到了如此多“人工智能”变“人工智障”的车祸现场,我们需要思考的是——这些匪夷所思的问题是如何产生的?看过卫夕长文的朋友都会很熟悉,卫夕通常更感兴趣的是背后那个更加深层次的底层逻辑,接下来我们就一起看一看算法故障背后的原因,我把它总结为三类——

1.算法本身或者算法背后的人产生技术错误——只要是人写的算法,就一定有出错的概率,比如德国居民那个凌晨发飙的智能音箱、失控的Uber自动驾驶汽车就是程序上的Bug导致的,这一类我们克服的办法其实相对简单。但对于另一种人为算计消费者的算法有时候可能我们就无能为力了,比如上边的办公用品网站史泰博的价格歧视;滴滴曾经也被公众投诉“同一段距离不同的人打车价格不一致”的“大数据杀熟”现象,无论真实与否,这类问题往往很难识别,因此也加大了监管的难度;

2.算法对于人性部分的忽略——你可能听过这个段子:一个美女通过一个最现代的人工智能设备找男朋友,输入条件是:1、要帅;2、有车,人工智能给出的结果是象棋;这尽管是一个段子,但从某种意义上也说明了现在的人工智能离真正理解人类的感情和行为依然有巨大的鸿沟,Facebook提醒你给去世的亲人发生日祝福背后本质的原因在于AI无法真正理解死亡对于人类意味着什么;

3.算法训练数据本身的偏见——目前人工智能的基本逻辑是先构建一个合适的机器学习模型,然后用大量的数据去训练模型,然后用训练好的模型再来预测新的数据,这里边有一个非常重要前提就是输入数据的重要性,比如上边再犯罪率的预测之所以产生问题就是因为输入的数据中本身就存在偏见,如果现实世界数据本身就存在偏见,那么预测结果也一定会有偏见;

总结一下,人工智能的大趋势必然会继续发展,但我们也需要清醒地意识到它现阶段的局限性和问题,不要夸大和渲染它的神奇性。

【钛媒体作者介绍:卫夕,互联网专栏作者、商业产品经理,专门生产硬核互联网内容,致力于用简洁的语言剖析互联网及广告的底层逻辑。】

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇