Facebook人工智能研究院院长进清华:AI不会取代人类
YannLeCun教授新浪科技讯北京时间3月22日晚间消息,Facebook人工智能研究院院长YannLeCun教授今天下午在清华大学举办了一场主题为“深度学习与人工智能的未来”的讲座,谈论了深度学习与人工智能的历史、现状与挑战。
YannLeCun教授是Facebook人工智能研究院院长,纽约大学教授。他最著名的是在深度学习和神经网络方面作出的杰出贡献,特别是他创立的卷积网络模型,被广泛地应用于计算机视觉和语音识别应用里,也因此他被称为卷积网络之父。本次讲座是由清华大学经济管理学院发起,清华x-lab与Facebook公司联合设计并推出的《创新与创业:硅谷洞察》学分课程中的一节公开课。这也是清华大学首次和跨国企业联合进行课程讲授。
在讲座中,LeCun教授首先讲述了人工智能的发展史。他提到,人工智能的研究首先是从机器学习中的监督学习开始,研究人员将训练实例输入机器,让机器辨别简单的物体;到了上个世纪50年代,研究人员提出了“认知机”(perceptron)概念。而后来研究人员又建立了多层神经网络理论,并最终建立深度学习概念。
LeCun教授重点谈论了他参与的卷积神经网络(CNN)研究:他当时将CNN用于辨别支票上的手写数字,识别率达50%,识别错误率仅为1%,这是CNN第一次解决实际问题;但当时不少研究者认为CNN并无实际意义,为此他的同事之间还有一场赌约,最后输赢各半,因为直至今日研究者也无法让CNN更好的用于实际中,但它在多个领域仍有应用。
LeCun教授认为,深度学习的作用一是为现有的事物分类,二是表达世界上的事物。时至今日,卷积神经网络的层级越来越多,使得人工智能在人脸识别,无人驾驶和图像识别方面都有广泛应用。
人工智能最终的发展方向是让它成为“有常识的机器”,能模拟大脑的认识、预测和记忆功能,但人工智能面临的障碍中,最主要的是让人工智能拥有更好的预测功能,因此能够培训人工智能预测功能的无监督学习开始流行。
LeCun教授在讲座中重点介绍了对抗训练,可以预测不确定的事件,进而可以预测图片中未显示的部分、或是视频的后几帧画面,这种训练对未来无人驾驶中预测物体移动方向很有用处。
最后在回答听众的提问中,LeCun认为人工智能研究界的沟通交流在推动人工智能发展方面有重要作用,他倡导开放性研究。
在回答人工智能的未来作用相关问题时,LeCun教授谈到了人工智能在未来的交通、制造、城市规划和医疗领域都将起重大作用,而对于Facebook来说,人工智能研究在翻译、压缩图片和个性化沟通领域也将有贡献,会更好的完成Facebook“连接全世界”的愿景。
有听众提问人工智能是否会占领世界,LeCun教授说,人工智能最终的目的是让人工智能向大脑一样有记忆功能、能影响人的行为,但只要人类不给它灌输“占领世界是好的”价值观,他不认为人工智能将会占领世界。
还有听众提问人类的生活有哪些部分会被人工智能取代,LeCun教授说,现在出现了以人工智能为基础的虚拟助手,可以帮助人类的生活;此外,翻译也是一个容易被人工智能取代的职业。
最后,清华大学经济管理学院钱颖一院长为YannLeCun教授颁发了授课嘉宾证书。(轶群)
标签:Facebook人工智能清华人类YannLeCun教授
更多好物在等你新浪众测·免费送推荐阅读聚焦应用中心新浪公益新浪游戏新浪视频新浪科技带领皇室家族赢得胜利靠反应力还不如背赛道动脑筋喂小怪物吃饼干轻松延长手机续航时间练就梦寐以求的好身材帮助保持健康生活方式随心所欲打造完美效果银河系最全新番齐放送复杂世界里一个就够了进入机器梦境寻找真相疯狂逃离恐怖的压碎机冰锋暗影古色庙殿狂奔斗巫师夺回被偷的糖果屯兵练兵出征攻占堡垒伪装胖猪混敌营救伙伴国内最专业的手机地图帮你一起保护你的颈椎随时随地轻松订火车票沈阳遭遇六级重度雾霾2万大妈齐跳小苹果禁烟范冰冰传递社会正能量未富先老养老金吃紧益调查:慈善需立法么反虐待动物法制化呼声高涨如何看待广州拟奖拾金不昧环保部即将解决红顶中介明星婚礼上的“善”姿“百名春蕾之星”评选舞剧《画皮》关注孤独症女孩患尿毒症自筹药费互联网发展基金会成立林青霞为慈善参加节目全面实施城乡大病保险儿童安全座椅强制认证办养老院真的是机会么志愿者慰问抗战老兵战舰世界海神节礼包乱斗西游2新浪独家卡倩女幽魂2夏日特权卡功夫熊猫新手高级礼包新倩女幽魂新浪特权卡灵魂战神不删档测试码我是大主宰新浪荣耀卡大话西游2免费版礼包西楚霸王新浪荣耀礼包镇魔曲神兵觉醒尊享卡完美国际2一生有你卡新天龙八部新手特权卡问道经典十年至尊礼包大战神新浪独家礼包热血传奇新区独享礼包剑网3萌宠浪浪大礼包创世2封测激活码问道手游媒体礼包极限Girl美与野性结合让萌宠当一天司机亲千万不要手贱啊超级屌的视觉错觉运动地球上最美丽的天堂鸟新一代武林最萌小道士神奇的PS造钱术大开眼界的泡面新吃法让宝宝嘴馋的菠萝炒饭经典电影镜头神级剪辑亲手教你范爷经典妆容盘点全球最糟糕山寨品恶搞:当一骷髅在开车健身是把整容刀三分钟看尽十年成长和TFBOYS一起过暑假不用去医院的牙美白术一分钟识别面试潜台词Windows10升级秘籍净水器的水有多深?识趣毕业季户外特辑用户关注手机哪些功能有曰:国内外展会吐槽三十年经典Moto手机ChinaJoy2015大看点东芝虚增利润财务丑闻紫光集团收购美光科技诺基亚为未来电影造球全球APP开发创意大赛享说第四期主持人李晨猎豹靠近捕食熟睡疣猪非洲血腥动物标本加工相机拍泡腾片遇水冒泡冰岛令人窒息美景懒惰青蛙蜗牛背搭便车美摄影师拍奇怪毛毛虫清华人工智能研究院院长张钹院士专文:迈向第三代人工智能(全文收录)
人工智能(ArtificialIntelligence,简称AI)在60多年的发展历史中,一直存在两个相互竞争的范式,即符号主义与连接主义(或称亚符号主义)。符号主义(即第一代人工智能)到上个世纪八十年代之前一直主导着AI的发展,而连接主义(即第二代人工智能)从上个世纪九十年代逐步发展,到本世纪初进入高潮,大有替代符号主义之势。但是今天看来,这两种范式只是从不同的侧面模拟人类的心智(或大脑),具有各自的片面性,不可能触及人类真正的智能。
清华大学人工智能研究院院长、中国科学院院士张钹教授在「纪念《中国科学》创刊70周年专刊」上发表署名文章,首次全面阐述第三代人工智能的理念,提出第三代人工智能的发展路径是融合第一代的知识驱动和第二代的数据驱动的人工智能,同时利用知识、数据、算法和算力等4个要素,建立新的可解释和鲁棒的AI理论与方法,发展安全、可信、可靠和可扩展的AI技术,这是发展AI的必经之路。
自2018年成立以来,清华大学人工智能研究院本着「一个核心、两个融合」的发展战略,大力推动人工智能的基础理论和基本方法的源头性和颠覆性创新,在人工智能基础理论、关键技术和产学研合作等诸方面取得了创新成果。人工智能的序幕刚刚拉开,正剧正在上演。基础研究是科技创新的源头,尤其在当前复杂多变的国际环境下,更需要提升我国的原始创新能力,久久为功,努力实现人工智能领域更多「从0到1」的突破。
以下全文刊载张钹院士的文章《迈向第三代人工智能》。
1第一代人工智能
人类的智能行为是怎么产生的,纽威尔(A.Newell)、西蒙(H.A.Simon)等[1∼4]提出以下模拟人类大脑的符号模型,即物理符号系统假设。这种系统包括:
(1)一组任意的符号集,一组操作符号的规则集;
(2)这些操作是纯语法(syntax)的,即只涉及符号的形式不涉及语义,操作的内容包括符号的组合和重组;
(3)这些语法具有系统性的语义解释,即它所指向的对象和所描述的事态。
1955年麦卡锡(J.McCarthy)和明斯基(M.L.Minsky)等学者[5],在达特茅斯人工智能夏季研究项目(theDartmouthSummerResearchProjectonArtificialIntelligence)的建议中,明确提出符号AI(artificialintelligence)的基本思路:「人类思维的很大一部分是按照推理和猜想规则对‘词’(words)进行操作所组成的」。根据这一思路,他们提出了基于知识与经验的推理模型,因此我们又把符号AI称为知识驱动方法。
符号AI的开创者最初把注意力放在研究推理(搜索)的通用方法上,如「手段–目的分析」(meanendanalysis)、「分而治之」(divideandconquer)、「试错」(trialanderror)法等,试图通过通用的方法解决范围广泛的现实问题。由于通用方法是一种弱方法,实际上只能解决「玩具世界」中的简单问题,如机器人摆放积木,下简单的井字棋(tic-tac-toe)等,与解决复杂现实问题相差很远。寻求通用AI的努力遭到了失败,符号AI于20世纪70年代初跌入低谷。
幸运的是,斯坦福大学教授费根堡姆(E.A.Feigenbaum)等及时改变了思路,认为知识,特别是特定领域的知识才是人类智能的基础,提出知识工程(knowledgeengineering)与专家系统(expertsystems)等一系列强AI方法,给符号AI带来了希望。他们开发了专家系统DENDRAL(有机化学结构分析系统,1965∼1975)[6],随后其他学者相继开发了MYCIN(血液传染病诊断和抗菌素处方,1971∼1977)[7],XCON(计算机硬件组合系统)等。不过早期的专家系统规模都较小,难以实用。
直到1997年5月IBM的深蓝(deepblue)国际象棋程序打败世界冠军卡斯帕诺夫(Kasparov),符号AI才真正解决大规模复杂系统的开发问题。费根堡姆和雷蒂(R.Raddy)作为设计与构造大型人工智能系统的先驱,共同获得1994年ACM图灵奖。
符号AI同样可以应用于机器学习,把「机器学习」看成是基于知识的(归纳)推理。下面以归纳逻辑编程(inductivelogicprogramming,ILP)[8]为例说明符号AI的学习机制。在ILP中正负样本(具体示例)、背景知识和学习结果(假设)都以一阶逻辑子句(程序)形式表示。学习过程是在假设空间中寻找一个假设,这个假设应尽可能多地包含正例,尽量不包含负例,而且要与背景知识一致。一般情况下假设空间很大,学习十分困难,不过有了背景知识之后,就可以极大地限制假设空间,使学习变成可行。显然,背景知识越多,学习速度越快,效果也越好。
为解决不确定问题,近年来,发展了概率归纳逻辑编程方法(probabilisticinductivelogicprogramming,PILP)[9]。基于知识的学习,由于有背景知识,可以实现小样本学习,而且也很容易推广到不同的领域,学习的鲁棒性也很强。以迁移学习(transferlearning)[10]为例,可以将学习得到的模型从一种场景更新或者迁移到另一场景,实现跨领域和跨任务的推广。
具体做法如下,首先,从学习训练的环境(包括训练数据与方法)出发,发现哪些(即具有某种通用性)知识可以跨域或者跨任务进行迁移,哪些只是针对单个域或单个任务的特定知识,并利用通用知识帮助提升目标域或目标任务的性能。这些通用知识主要通过以下4种渠道迁移到目标域中去,即源域中可利用的实例,源域和目标域中可共享的特征,源域模型可利用的部分,源域中实体之间的特定规则。可见,知识在迁移学习中起关键的作用,因此,符号AI易于跨领域和跨任务推广。
在创建符号AI中做出重大贡献的学者中,除费根堡姆和雷蒂(1994)之外,还有明斯基(1969),麦卡锡(1971),纽威尔和西蒙(1975)共6位先后获得图灵奖(括号中的数字表示获奖的年份)。总之,第一代AI的成功来自于以下3个基本要素。以深蓝程序为例,第1是知识与经验,「深蓝」从象棋大师已经下过的70万盘棋局和大量5∼6个棋子的残局中,总结出下棋的规则。另外,在象棋大师与深蓝对弈的过程中,通过调试「评价函数」中的6000个参数,把大师的经验引进程序。第2是算法,深蓝采用α−β剪枝算法,有效提高搜索效率。第3是算力(计算能力),为了达到实时的要求,深蓝使用IBMRS/6000SP2,11.38GFLOPS(浮点运算/秒),每秒可检查2亿步,或3分钟运行5千万盘棋局(positions)。
符号AI有坚实的认知心理学基础,把符号系统作为人类高级心智活动的模型,其优势是,由于符号具有可组合性(compositionality),可从简单的原子符号组合成复杂的符号串。每个符号都对应着一定的语义,客观上反映了语义对象的可组合性,比如,由简单部件组合成整体等,可组合性是推理的基础,因此符号AI与人类理性智能一样具有可解释性和容易理解。符号AI也存在明显的局限性,目前已有的方法只能解决完全信息和结构化环境下的确定性问题,其中最具代表性的成果是IBM「深蓝」国际象棋程序,它只是在完全信息博弈(决策)中战胜人类,这是博弈中最简单的情况。而人类的认知行为(cognitivebehavior),如决策等都是在信息不完全和非结构化环境下完成的,符号AI距离解决这类问题还很远。
以自然语言形式表示(离散符号)的人类知识,计算机难以处理,必须寻找计算机易于处理的表示形式,这就是知识表示问题。我们已有的知识表示方法,如产生式规则(productionrules),逻辑程序(logicprogram)等,虽然计算机易于处理(如推理等),但都较简单,表现能力有限,难以刻画复杂和不确定的知识,推理也只限于逻辑推理等确定性的推理方法。更加复杂的知识表示与推理形式都在探讨之中,如知识图谱(knowledgegraph)[11]、概率推理等[12]。符号AI缺乏数学基础,除数理逻辑之外,其他数学工具很难使用,这也是符号AI难以在计算机上高效执行的重要原因。
基于知识驱动的强AI只能就事论事地解决特定问题,有没有广泛适用的弱方法,即通用AI,目前还是一个值得探讨的问题。此外,从原始数据(包括文本、图像、语音和视频)中获取知识目前主要靠人工,效率很低,需要探索有效的自动获取方法。此外,真正的智能系统需要常识,常识如何获取、表达和推理还是一个有待解决的问题。常识的数量巨大,构造一个实用的常识库,无异于一项AI的「曼哈顿工程」,费时费力。
2第二代人工智能
感官信息(视觉、听觉和触觉等)是如何存储在记忆中并影响人类行为的?有两种基本观点,一种观点是,这些信息以某种编码的方式表示在(记忆)神经网络中,符号AI属于这一学派。另一种观点是,感官的刺激并不存储在记忆中,而是在神经网络中建立起「刺激–响应」的连接(通道),通过这个「连接」保证智能行为的产生,这是连接主义的主张,连接主义AI就是建立在这个主张之上。
1958年罗森布拉特(Rosenblatt)按照连接主义的思路,建立一个人工神经网络(artificialneuralnetwork,ANN)的雏形——感知机(perceptron)[13,14]。感知机的灵感来自于两个方面,一是1943年麦卡洛克(McCulloch)和皮特(Pitts)提出的神经元数学模型——「阈值逻辑」线路,它将神经元的输入转换成离散值,通常称为M-P模型[15]。二是来自于1949年赫布(D.O.Hebb)提出的Hebb学习率,即「同时发放的神经元连接在一起」[16]。感知机如图1所示。
其中b为阈值,w为权值。
AI的创建者从一开始就关注连接主义的思路。1955年麦卡锡等在达特茅斯(Dartmouth)AI研究建议中写道「如何安排一组(假想的)神经元使之形成概念······已经获得部分的结果,但问题是需要更多的理论工作」[5],并把它列为会议的研讨内容之一。由感知机组成的ANN只有一个隐蔽层,过于简单。明斯基等[17]于1969年出版的书《感知机》中指出,感知机只能解决线性可分问题,而且即使增加隐层的数量,由于没有有效的学习算法,感知机也很难实用。明斯基对感知机的批评是致命的,使刚刚起步的连接主义AI跌入低谷达10多年之久。在困难的时期里,在许多学者的共同努力下,30多年来无论在神经网络模型还是学习算法上均取得重大进步,逐步形成了深度学习的成熟理论与技术。
其中重要的进展有,第1,梯度下降法(gradientdescent),这本来是一个古老的算法,法国数学家柯西(Cauchy)[18]早在1847年就已经提出;到1983年俄国数学家尤里·涅斯捷诺夫(YuriiNesterov)[19]做了改进,提出了加强版,使它更加好用。第2,反向传播(backpropagation,BP)算法,这是为ANN量身定制的,1970年由芬兰学生SeppoLinnainmaa在他的硕士论文中首先提出;1986年鲁梅哈特(D.E.Rumelhart)和辛顿(G.Hinton)等做了系统的分析与肯定[20]。「梯度下降」和「BP」两个算法为ANN的学习训练注入新的动力,它们和「阈值逻辑」、「Hebb学习率」一起构成ANN的4大支柱。
除4大支柱之外,还有一系列重要工作,其中包括更好的损失函数,如交叉熵损失函数(cross-entropycostfunction)[21];算法的改进,如防止过拟合的正则化方法(regularization)[22];新的网络形式,如1980年日本福岛邦彦(Fukushima)的卷积神经网络(convolutionneuralnetworks,CNN)[23,24],递归神经网络(recurrentneuralnetworks,RNN)[25],长短程记忆神经网络(longshort-termmemoryneuralnetworks,LSTM)[26],辛顿的深度信念网络(deepbeliefnets,DBN)[27]等。这些工作共同开启了以深度学习(deeplearning)为基础的第二代AI的新纪元[28]。
第二代AI的学习理论有坚实的数学基础,为了说明这个基础,下面举一个简单的有监督学习的例子,有监督学习可以形式化为以下的函数回归问题:从数据库D中提取样本
,对样本所反映的输入–输出关系f:X→Y做出估计,即从备选函数族(假设空间)F={fθ:X−→Y;θ∈A}中选出一个函数f^∗使它平均逼近于真实f。在深度学习中这个备选函数族由深度神经网络表示:
参数学习中有3项基本假设。(1)独立性假设:损失函数和备选函数族F(或者神经网络结构)的选择与数据无关。(2)大容量假设:样本(x_i,y_i)数量巨大(n→∞)。(3)完备性假设:训练样本完备且无噪声。
如果上述假设均能满足,f^∗将随样本数的增加最后收敛于真实函数f。由此可见,如果拥有一定质量的大数据,由于深度神经网络的通用性(universality),它可以逼近任意的函数,因此利用深度学习找到数据背后的函数具有理论的保证。这个论断在许多实际应用中得到了印证,比如,在标准图像库ImageNet(2万类别,1千4百万张图片)上的机器识别性能,2011年误识率高达50%,到2015年微软公司利用深度学习方法,误识率大幅度地降到3.57%,比人类的误识率5.1%还要低[29]。低噪声背景下的语音识别率,2001年之前基本上停留在80%左右,到了2017年识别率达到95%以上,满足商品化的要求。
2016年3月谷歌围棋程序AlphaGo打败世界冠军李世石,是第二代AI巅峰之作,因为在2015年之前计算机围棋程序最高只达到业余五段!更加令人惊奇的是,这些超越人类性能成果的取得,并不需要领域知识的帮助,只需输入图像原始像素、语音原始波形和围棋棋盘的布局(图像)!
深度学习的成功来自于以下3个要素:一是数据,以AlphaGo为例,其中AlphaGo-Zero通过强化学习自学了亿级的棋局,而人类在千年的围棋史中,下过的有效棋局只不过3000万盘。二是算法,包括蒙特卡洛树搜索(Monte-Carlotreesearch)[30]、深度学习和强化学习(reinforcementlearning)[31]等。三是算力,运行AlphaGo的机器是由1920个CPU和280个GPU组成的分布系统。因此第二代AI又称数据驱动方法。
在创建第二代AI中做出重大贡献的学者中,有以下5位获得图灵奖。他们是菲丽恩特(L.G.Valiant,2010)、珀尔(J.Pearl,2011)、本杰奥(Y.Bengio,2018)、辛顿(G.Hinton,2018)、杨立昆(Y.LeCun,2018)等。
早在2014年,深度学习的诸多缺陷不断地被发现,预示着这条道路遇到了瓶颈。下面仅以基于深度学习的图像识别的一个例子说明这个问题(材料引自本团队的工作)。文献[32]表示利用基于动量的迭代快速梯度符号法(momentumiterativefastgradientsignmethod,MI-FGSM)对Inceptionv3深度网络模型实施攻击的结果。无噪声的原始图像——阿尔卑斯山(Alps),模型以94.39%的置信度得到正确的分类。利用MI-FGSM方法经10次迭代之后生成攻击噪声,将此攻击噪声加进原图像后得到攻击样本。由于加入的噪声很小,生成的攻击样本与原始图几乎没有差异,人类无法察觉,但Inceptionv3模型却以99.99%的置信度识别为「狗」。
深度学习为何如此脆弱,这样容易受攻击,被欺骗和不安全,原因只能从机器学习理论本身去寻找。机器学习的成功与否与3项假设密切相关,由于观察与测量数据的不确定性,所获取的数据一定不完备和含有噪声,这种情况下,神经网络结构(备选函数族)的选择极为重要,如果网络过于简单,则存在欠拟合(under-fitting)风险,如果网络结构过于复杂,则出现过拟合(overfitting)现象。虽然通过各种正则化的手段,一定程度上可以降低过拟合的风险,但是如果数据的质量差,则必然会导致推广能力的严重下降。
此外,深度学习的「黑箱」性质是造成深度学习推广能力差的另一个原因,以图像识别为例,通过深度学习只能发现重复出现的局部片段(模式),很难发现具有语义的部件。文献[33]描述了利用深度网络模型VGG-16对「鸟」原始图像进行分类,从该模型pool5层147号神经元的响应可以看出,该神经元最强烈的响应是「鸟」头部的某个局部特征,机器正利用这个局部特征作为区分「鸟」的主要依据,显然它不是「鸟」的不变语义特征。因此对于语义完全不同的对抗样本(人物、啤酒瓶和马等),由于具有与「鸟」头部相似的片段,VGG-16模型pool5层147号神经元同样产生强烈的响应,于是机器就把这些对抗样本错误地判断为「鸟」。
3第三代人工智能
第一代知识驱动的AI,利用知识、算法和算力3个要素构造AI,第二代数据驱动的AI,利用数据、算法与算力3个要素构造AI。由于第一、二代AI只是从一个侧面模拟人类的智能行为,因此存在各自的局限性。为了建立一个全面反映人类智能的AI,需要建立鲁棒与可解释的AI理论与方法,发展安全、可信、可靠与可扩展的AI技术,即第三代AI。其发展的思路是,把第一代的知识驱动和第二代的数据驱动结合起来,通过同时利用知识、数据、算法和算力等4个要素,构造更强大的AI。目前存在双空间模型与单一空间模型两个方案。
3.1双空间模型
双空间模型如图2所示,它是一种类脑模型,符号空间模拟大脑的认知行为,亚符号(向量)空间模拟大脑的感知行为。这两层处理在大脑中是无缝融合的,如果能在计算机上实现这种融合,AI就有可能达到与人类相似的智能,从根本上解决目前AI存在的不可解释和鲁棒性差的问题。为了实现这种目标,需要解决以下3个问题。
3.1.1知识与推理
知识(包括常识)与推理是理性智能的基础,在第一代AI中,以物理符号系统模拟人类的理性智能,取得显著的进展,但无论在知识表示还是推理方法上都有大量的问题需要进一步探讨。下面以IBMDeepQA项目[34]为例说明最近的进展,之所以选择这个例子是因为基于DeepQA构成的Watson对话系统,在2011年2月美国电视「危险边缘」智力竞赛节目中,以压倒优势战胜全美冠军K.詹宁斯(KenJennings)和B.拉特(BradRutter),表明Watson是一个成功的AI系统。Watson关于知识表示和推理方法的以下经验值得借鉴:(1)从大量非结构化的文本自动生成结构化知识表示的方法,(2)基于知识质量的评分表示知识不确定性的方法,(3)基于多种推理的融合实现不确定性推理的方法。
Watson系统将「问答」(question-answer)看成是基于知识的从「问题」到「答案」的推理,为了达到人类的答题水平,计算机需要拥有与人类冠军一样甚至更多的知识。其中包括百科全书、主题词表、词典、专线新闻报道、文学作品等互联网上数量巨大(相当于2亿页的纸质材料)的文本,这些文本是非结构化的,而且质量参差不齐,需要把这些非结构化的文本自动转换为结构化且易于处理的表达形式。Watson系统使用的表达形式为「扩展语料库」(expendedcorpus),它的生成步骤如下。首先给出基线语料库(baselinecorpus)判别种子文件(seeddocuments),根据种子文件从网上收集相关文件并并从中挖掘「文本核」(textnuggets),对文本核做评分按按照评分结果集成为最后的「扩展语料库」。
除自动生成的扩展语料库之外,Watson的知识库中还包括已有的语料库,如dbPedia,WordNet,Yago等,以及人工编制的部分库。Watson采用多种推理机制(多达百种)将「问题」转换为「答案」(见图3)。先对「问题」做分析、分类和分解,根据分解的结果从答案源(语料库)中搜索假设与候选答案,经初步过滤之后,筛选出100个左右候选答案。再从证据源中收集证据,对候选答案进行评分,评估过程同时考虑数据源的可靠性,依据评分结果合成出几种候选答案,按照置信度大小进行排序,最后输出排序后的答案。
此外,Watson还通过155场与人类现场对决和8000次的实验,学习对「问题」(自然语言)的理解。
3.1.2感知
符号主义用符号系统作为人类心智的模型,以实现与人类相似的推理能力。但从认知的角度看,二者却有本质上的不同,即存在「符号基础问题」(symbolgroundingproblem)[35]。在物理符号系统中,客观世界的「对象」和「关系」等用符号表示,但符号本身并无语义,我们只好人为地给它们规定语义,也就是说是外部强加的「寄生语义」(parasiticsemantics),机器本身并不知道。这与人类大脑中存在的「内在语义」(intrinsicsemantics)完全不同,人类大脑中的「内在语义」,特别是「原子概念」和「常识」,除极少数先天之外,主要是通过感官(视听等)或者感官与动作的结合自我习得的,即将感官图符式(iconic)表示或反映语义不变性的分类(categorical)表示转化为符号表示。这本来是深度学习要完成的任务,但很可惜,目前深度学习的模型并不能完成这项使命。因为深度学习所处理的空间是特征空间,与语义空间差别很大,它只能学到没有明确语义的「局部片段」,这些片段不具备可组合性,因此不能用来作为「物体」的「内在语义」表示。换句话讲,目前的深度学习只能做到「感觉」(sensation),达不到感知为为达到感知的水平,机器必须通过自我学习获取「物体」的语义部件(semanticparts),如「狗」的腿、头、尾等,才有可能通过这些部件的组合形成「狗」的不变「内在语义」。解决这个问题的基本思路是利用知识为引导,将感觉的信息从向量特征空间提升到符号语义空间,如图2所示。这方面已经有不少的研究工作[36∼39],下面以本团队的工作阐述这方面工作的初步进展。
文献[40]描述如何利用一个三元生成对抗网络(triplegenerativeadversarialnetworks,Triple-GAN)提高图像分类性能的方法。三元生成对抗网络由3部分组成:分类器、生成器和鉴别器,分别用于条件化图像生成和半监督学习中的分类。生成器在给定真实标签的情况下生成伪数据,分类器在给定真实数据的情况下生成伪标签,鉴别器的作用是区分数据标签对是否来自真实标记的数据集。如果设计好合适的效用函数,利用三元生成对抗网络,可以通过无监督(或弱监督)学习,让生成器(网络)学到样本中「物体」的表示(即先验知识),同时利用这个先验知识改善分类器的性能。
此项研究表明,通过ANN的无监督学习可以学到「物体」的先验知识,这就是「物体」(符号)的「内在语义」。利用这个具有「内在语义」的先验知识提高分类器的识别率,从根本上解决计算机视觉中存在的「检测」(where)与「识别」(what)之间的矛盾,实现小样本学习,提高鲁棒性和推广能力。
还可以从另外的角度思考,先回到深度学习所使用的人工神经网络(图4),以视觉为例,它与人类的视觉神经网络相比过于简单了,既没有反馈连接,同层之间的横向连接和抑制连接,也没有稀疏放电、记忆和注意等机制。如果我们能够将这些机制引进ANN,将会逐步提高计算机视觉的感知能力。由于我们对大脑视神经网络的工作原理了解得很少,目前只能沿着「脑启发计算」(brianinspiredcomputing)的道路一步一步地往前探索。
目前有一些试探性的工作,有些效果但都不够显著。下面介绍本团队的一项研究。如文献[41]所述,将稀疏放电的原理运用到ANN各层的计算中。网络共6层,包括Gabor滤波和Max池化等,在各层的优化计算中加上「稀疏」正则约束项,稀疏性的要求迫使ANN选择最具代表性的特征。如果用背景简单的「人类」「小汽车」「大象」和「鸟」等图像作为训练样本训练网络,那么神经网络的输出层就会出现代表这些「类别」的神经元,分别对人脸、小汽车、大象和鸟的轮廓做出响应,即提取了「整个物体」的语义信息,形成部分的「内在语义」。
这种方法也只能提取部分的语义信息,还不能做到提取不同层面上的语义信息,如「整体」、「部件」和「子部件」等,达到符号化的水平,因此仍有许多工作有待研究。
3.1.3强化学习
上面说过通过感官信息有可能学到一些基本知识(概念),不过仅仅依靠感官信息还不够,比如「常识概念」,如「吃饭」「睡觉」等仅依靠感官难以获取,只有通过与环境的交互,即亲身经验之后才能获得,这是人类最基本的学习行为,也是通往真正AI的重要道路。强化学习(reinforcementlearning)就是用来模拟人类的这种学习行为,它通过「交互–试错」机制,与环境不断进行交互进而学习到有效的策略,很大程度上反映了人脑做出决定的反馈系统运行机理,成为当前人工智能突破的重要方法,在视频游戏[42,43]、棋牌游戏[44,45]、机器人导航与控制[46,47]、人机交互等领域取得了诸多成果,并在一些任务上接近甚至超越了人类的水平[48,49]。
强化学习通常看成是离散时间的随机控制过程,即智能体与环境的交互过程。智能体从起始状态出发,取得起始观察值,在t时刻,智能体根据其内部的推理机制采取行动之后,获得回报
,并转移到下一个状态
,得到新的观察
。强化学习的目标是,选择策略π(s,a)使累计回报预期V^π(s):S→R最优。如果我们考虑简单的马尔可夫(Markov)决策过程,即后一个状态仅取决于前一个状态,并且环境完全可观察,即观察值o等于状态值s,即O=S;并假设策略稳定不变。如图5所示。以AlphaZero为例,智能体不依赖人类的标注数据,仅仅通过自我博弈式的环境交互积累数据,实现自身策略的不断改进,最终在围棋任务上达到了超越人类顶级大师的水平,代表强化学习算法的一个巨大进步[45]。
强化学习算法在选择行为策略的过程中,需要考虑环境模型的不确定性和目标的长远性。具体的,通过值函数也就是未来累积奖励的期望衡量不同策略的性能,即
其中γ∈[0,1]是折扣因子。值函数可以写成贝尔曼方程(Bellmanequation)的形式。该方程表示了相邻状态之间的关系,可以利用其将决策过程划分成多个不同的阶段,其中某一阶段的最优决策问题可以利用贝尔曼方程转化为下一阶段最优决策的子问题。
强化学习的核心目标就是选择最优的策略,使得预期的累计奖励最大,即值函数取得最优值
需要指出的是,尽管强化学习在围棋、视频游戏等任务上获得了极大的成功,但是这些任务从本质上是相对「简单」的,其任务的环境是完全可观察的、反馈是确定的、状态主要是离散的、规则是明确的,同时可以相对比较廉价地得到大量的数据,这些都是目前人工智能算法所擅长的。但是在不确定性、不完全信息、数据或者知识匮乏的场景下,目前强化学习算法的性能往往会出现大幅度的下降,这也是目前强化学习所面临的重要挑战。其中的典型问题如下所述。
(1)部分观测马氏决策过程中强化学习:在真实的问题中,系统往往无法感知环境状态的全部信息,因此不仅需要考虑动作的不确定性,同时也需要考虑状态的不确定性。这就导致了部分感知的强化学习往往不满足马尔可夫环境假设。尽管相关的研究者近年来进行了大量的探索,但是部分观测马氏决策(partiallyobservableMarkovdecisionprocess,POMDP)仍然是强化学习中比较有挑战的问题。
(2)领域知识在强化学习中的融合机制:如何实现领域知识的融合在强化学习中同样是重要科学问题。对提高收敛速度、降低采样复杂度、改善模型迁移性和算法鲁棒性等具有重要意义。本团队针对这一问题,在领域知识指导的动作空间抽象压缩[50]、结构设计[51]等方面进行了初步探索,但是如何实现领域知识和强化学习框架的高效融合仍然是亟待解决的问题。
(3)强化学习和博弈论的结合:博弈论和强化学习的结合是近年来领域内研究的热点问题。二者的结合可以让多智能体之间的竞争和合作关系的建模变得更加直观和清晰,这其中包含了多智能体之间的零和/非零和、完全信息/非完全信息等多种不同的任务类型,尤其是在对抗性的任务中更具有研究和应用价值[43]。本团队前期在这方面也进行了探索性的研究,将智能体对环境的探索建模成智能体和环境之间的博弈过程[52],也是目前第一个在扩展型博弈、参数未知的场景下能够从理论上保证收敛的算法。
除此之外,强化学习所面临的难题还包括仿真环境和真实环境的差异、探索和利用的矛盾、基于模型的强化学习算法等诸多难点的问题,相比于监督学习所获得的成功而言,强化学习的研究还处于相对较为初级的阶段。
3.2单一空间模型
单一空间模型是以深度学习为基础,将所有的处理都放在亚符号(向量)空间,这显然是为了利用计算机的计算能力,提高处理速度。问题在于深度学习与大脑的学习机制不同,在许多方面表现不佳,如可解释性和鲁棒性等。关键是要克服深度学习所带来的缺陷,如图6所示。下面讨论几个关键问题。
3.2.1符号表示的向量化
知识通常以自然语言的离散符号形式表示,为了实现单一空间模型,首先要将符号表示的词、短语、句子和篇章等转换为向量,或者将知识图谱转换为向量表示。关键是「词」的变换,即词嵌入(wordembedding)。目前「词嵌入」已有各种方法,如Word2Vec[53]和GloVe[54]等。
下面介绍Word2Vec中采用的Skip-gram[55]策略,用来说明词是如何由符号转换为向量的。
其中w是给定的目标词,c是从其上下文中任选的一个词,p(c|w;θ)是给定词w下,词c出现的概率。D是从语料库中提取的所有w−c对,θ是模型参数,式(5)进一步参数化后,得到
其中
是词c和词w的向量表示,C是所有可用文本。参数,i=1,2,...d,共|C|×|W|×d个。调整这些参数使式(5)最大化,最后得到所有词w∈W的向量表示
。
这些词向量具有以下良好的性质,即「语义相似的词,其词向量也很相似」(见图7)。变换后的词向量之所以具有上述良好的性质,出自嵌入过程的以下假设,两个词在上下文中同现的频率越高,这两个词的语义越可能接近,或者越可能存在语义上的某种关联。嵌入词向量的这些特性,表明它带有语义信息,因此称嵌入空间为准语义空间。式(5)是难计算的,可以采用深度神经网络等做近似计算。利用类似的嵌入法也可以把「短语」「句子」和「篇章」或者知识图谱等转换到具有准语义的向量空间中去[56]。
向量形式的知识表示具有上述良好的性质,且可以与数据一样,使用大量的数学工具,包括深度学习方法,因此被大量应用于文本处理,如机器翻译等,取得明显的效果。下面以神经机器翻译(neuralmachinetranslation)为例予以说明[57,58]。
神经机器翻译的基本思路是,给定源句子(比如中文),寻找目标句(比如英文)。神经翻译的任务是,计算词一级翻译概率的乘积,
其中θ是一组模型参数,是部分翻译结果。词一级的翻译概率可用softmax函数f(·)定义:
其中是目标句中第j个词的向量表示,v_x是源句子的向量表示,
是部分翻译句的向量表示,y=y_j,j=1,2...,J是要找的目标句。
神经翻译模型的构造:给定训练样本为一组「源句–目标句」对
,模型训练的目标是最大化log似然:
即选择一组模型参数θ,使目标函数最大化。利用这个模型,通过式(7)计算(翻译)目标句子。这种翻译方法尽管可以得到比传统方法错误率还低的翻译结果,但它具有深度学习方法的共性缺陷,如不可解释、会发生重大错误、鲁棒性差等。为克服这些缺陷,需要加入知识,通过先验知识或后验正则化等方式引入语言知识等。
3.2.2深度学习方法的改进
基于深度学习的AI具有不可解释和鲁棒性差等缺陷,目前有许多改进工作。下面介绍本团队的一些工作。
(1)可解释性问题。可解释人工智能算法的研究近年来引起众多研究人员的关注。而人类理解机器决策过程的核心难点是跨越数据特征空间和人类语义空间之间的鸿沟[59]。无论是早期的以手工特征为基础的算法,还是当前以特征学习为代表的深度学习,其核心思想都是将观测样本映射到特征空间中,进而在特征空间进行分析,发现样本在特征空间不同区域内的规律,从而达到算法要实现的任务目标(如分类、回归等)。与之不同的是,人类的分析和决策是利用自身的背景知识,在语义空间当中完成。但是数据特征空间和人类的语义空间在结构和内涵上存在显著的区别,而可解释人工智能的最终就是要在二者之间架起一座桥梁,进而跨越二者之间的鸿沟。
总体而言,相关的研究主要分为(i)模型的后解释技术(post-hocexplanation),也就是给定了人工智能的模型,通过可视化、交互技术等方式,分析给定模型的工作机理,为其决策结果寻找解释途径;(ii)可解释模型,即通过发展新的网络架构、损失函数、训练方式等,发展具有内在可解释性的新型人工智能模型。从整体来说,两类方法目前都在发展过程中,在可解释性的研究中具有重要作用。
可视分析是人工智能算法可解释的一种直观的思路。既然深度学习是「黑箱」学习法,内部的工作机理是不透明的,「不可解释」,如果利用可视化,打开「黑箱」,一切不就清楚了吗?为了帮助机器学习专家更加理解卷积神经网络的工作机理,我们开发了CNNVis这一可视分析工具[60]。CNNVis旨在帮助专家更好地理解与诊断深度卷积神经网络,作为一种混合可视化方法,综合应用了基于双聚类技术的边绑定方法,以及矩形布局算法、矩阵重排算法和有向无环图布局算法等。作为可视化领域的首批深度学习可视分析工作,该工作在工业界和学术界都引起了广泛关注。在此基础上,为了分析复杂神经网络的训练过程,我们以深度生成模型(对抗生成网络(generativeadversarialnetworks,GAN)和变分自编码器(variationalauto-encoder,VAE))为例,研究了如何帮助机器学习专家诊断训练过程中出现的常见问题。
解释模型的另外一个思路是利用部分统计分析的技巧,针对神经网络决策过程中的参数冗余性,对神经网络内部最后决策起到关键作用的子成分进行分析,得到复杂模型内部对决策起到最关键作用的核心部分。为了更高效发掘子网络,我们借鉴了网络剪枝(networkpruning)思路,提出一种普适的提取子网络的方法,而无需对模型从头进行训练[61]。具体来说,我们对网络中每一层都附加一组控制门(controlgate)变量,在知识蒸馏[62](knowledgedistillation)准则下优化该组变量控制各层输出通道,用以确定关键子网络。具体来说,令p(y|x;θ)为具有权重参数θ的原始模型对于单个样本X所做出的预测概率。而我们想要提取参数为θ_s的关键子网络,其预测输出应为q(y|x;θ_s),应该与原模型输出结果在Kullback-Leibler散度度量下接近。因此总体最小化目标函数为
其中Ω(θ_s)为稀疏正则项,即鼓励模型通过尽量少的激活神经元达到和原网络相似的性能。通过对关键子网络可视化分析,我们观察到对于样本特定子网络,各层控制门值表征形式随着层级增高而展现出类别区分特性。实验结果表明,对于类别特定子网络,其整体表征形式与类别语义之间有着密切联系。
以上方法更多的关注是模型的后解释,也就是给定一个深度学习模型「强行」寻求对其决策过程的解释,而这种解释是否符合神经网络的内在机理仍然是需要讨论的问题。由于深度学习模型的不可解释性是由于机器推理的特征空间和人类可理解的空间存在着本质的区别,因此深度学习要想实现可解释性就需要把机器特征空间和人类的语义空间联系起来。本团队也在此方面进行了探索性研究[63],主要针对如何将人类的先验知识融入到深度学习模型的训练中,使特征具有更加明确的语义内涵,从而能够做到决策的追溯。具体的,在图文的联合分析中,我们利用文本信息中抽取出来的人类可理解的主题信息指导神经网络的训练过程,并对文本和图像/视频数据进行协同训练,引导神经网络训练得到人类可以理解的语义特征。具体的,我们通过在神经网络的目标函数中引入可解释的正则约束:
其中第1项是相关任务的损失函数,第2项是可解释正则约束。通过这种方法,可以在文本数据引导下,通过不同模态数据之间的信息互补性,利用可解释正则约束,提升深度学习模型的可解释性。
(2)鲁棒性问题。由于对抗攻击给深度学习模型带来的潜在的恶意风险,其攻击不但精准且带有很强的传递性,给深度学习模型的实际应用带来了严重的安全隐患,迫切需要增强深度学习模型自身的安全性,发展相应的深度学习防御算法,降低恶意攻击带来的潜在威胁[64]。具体来说,目前的深度学习防御算法主要有两类思路。
第1是基于样本/模型输入控制的对抗防御。这类方法的核心是在模型的训练或者使用阶段,通过对训练样本的去噪、增广、对抗检测等方法,降低对抗攻击造成的危害。其中去噪器由于不改变模型自身的结构和性质,具有「即插即用」的性质,引起了广泛的关注。但是由于对抗噪声的特殊属性,其形成的干扰效应往往可以随着神经网络的加深逐步放大,因此在普通的高斯噪声(Gaussiannoise)上具有良好滤除效果的自编码器往往不能很好地滤除对抗噪声。
针对这一问题,本团队提出了基于高层表示引导的去噪器(HGD)[65],通过高层特征的约束使得对抗样本与正常样本引起目标模型的上层神经元响应尽可能一致。将传统像素级去噪网络DAE(denoisingautoencoder)与U-net网络结构进行结合,到负噪声输出,用对抗样本加上负噪声可以得到去噪图片,即。研究表明该方法不仅去掉了一部分对抗扰动,还增加了一部分「反对抗扰动」,取得了非常好的防御效果,获得「NIPS2017对抗性攻防竞赛」中对抗防御任务冠军,以及2018年在拉斯维加斯(LasVegas)举办的CAADCTF对抗样本邀请赛冠军。
第2是基于模型增强的对抗防御。这类方法的核心是通过修改网络的结构、模型的激活函数、损失函数等,训练更加鲁棒的深度学习模型,从而提高对对抗攻击的防御能力。其中集成模型(ensemble)是近年来出现的一类典型的防御方法。针对经典集成防御由于各个子模型的相似性导致防御性能下降的问题,本团队提出自适应多样性增强训练方法(adaptivediversitypromotingtraining,ADP)[66]。相比于经典集成模型,ADP方法在训练函数中额外引入了多样性正则项,鼓励每个子模型在正确类别上决策一致,而在其他类别上预测不一致。由于其他类别包括所有潜在的对抗样本的目标类别,所以这种不一致性可以使得各个子模型难以被同时欺骗,从而增强集成模型的鲁棒性。具体来讲,在ADP方法中,为了保证每个子模型的最大预测都对应于正确的类别,这种多样性定义在每个子模型输出的非最大预测上,当不同子模型的非最大预测向量相互正交时,这种多样性取得最大值。具体的,其训练的目标函数为
其中,
;
为每个子模型k的交叉熵(cross-entropy)损失函数。ADP_α,β(x,y)=α·H(F)+β·log(ED)是模型集成多样性的度量,鼓励不同的子模型形成尽量差异化的决策边界。实验结果表明,通过鼓励不同子模型的差异化决策性质,有效地提升了模型的对抗鲁棒性。但是,总体而言,目前多数的对抗防御方法是基于经验主义的,研究表明很多防御对抗样本的方法在很短的时间就会被后来的攻击算法攻破。其重要原因之一是深度学习只是在做简单的函数拟合,缺乏像人一样对问题的理解能力[67]。因此通过理解机器学习模型的内部工作机理,发展数据驱动和知识驱动融合的第三代人工智能理论框架,将成为提高人工智能算法鲁棒性的重要途径。
但是,总体而言,目前多数的对抗防御方法是基于经验主义的,研究表明很多防御对抗样本的方法在很短的时间就会被后来的攻击算法攻破。其重要原因之一是深度学习只是在做简单的函数拟合,缺乏像人一样对问题的理解能力[67]。因此通过理解机器学习模型的内部工作机理,发展数据驱动和知识驱动融合的第三代人工智能理论框架,将成为提高人工智能算法鲁棒性的重要途径。
3.2.3贝叶斯深度学习
如图6所示,图像和语音等信息是在特征空间中处理的,这些特征语义信息很少,需要提取含有更多语义的特征,其中的一种解决办法是将知识引入深度学习。下面以贝叶斯深度学习为例,说明这一思路。
我们前面说过深度神经网络没有考虑数据观测的不确定性,这种不确定性的存在,以及对于数据背后物理背景的无知,使我们对深度学习结果的正确性难以判断。同时,在数据量有限但模型逐渐变大(如包括十亿甚至千亿参数)的过程中,模型的不确定性也变得更严重——存在很多模型在训练集上表现都很好,但在测试集上的表现差别很大。贝叶斯学习充分考虑了先验知识以及模型和数据的不确定性,而且还能从不断提供的数据(证据)中,加深对数据的了解,即根据新的证据实现增量式的学习,充分发挥知识在学习中的作用。不仅可以对学习结果的可信度做出判断,也因此提高了学习的效率和准确度。
贝叶斯学习(Bayesianlearning)定义:给定观测数据d∈D,按贝叶斯规则计算每个假设的概率,
其中D是所有数据[12,68]。给定d
是对未知量X的预测,即通过观测数据确定各个假设的概率,再从各个假设确定未知量X的分布。其中的关键是假设先验p(h_i)和给定假设h_i下数据d的似然p(d|h_i)。贝叶斯预测(式(13))不管样本量大小,均可达到最优,但当假设空间很大时,式(13)的加法计算量太大(在连续情况下为积分),难以实际应用。通常需要采用近似算法,主要有两类近似方法——变分推断和蒙特卡洛采样[69]。另外,还有一些常见的简化有,(1)对X的预测不是利用所有的假设,而只利用其中让p(h_i|d)最大化的一个h_i,称为最大化后验(maximumaposteriori,MAP)假设。(2)假定p(h_i)是均匀分布,问题就简化为,选择一个让p(d|h_i)最大化的hi,称为最大化似然(maximumlikelihood,ML)假设。(3)如果不是所有数据都可以观测,即存在隐变量,通常采用EM(expectationmaximization)算法[70]。该算法分为两步(式(14)),E步:利用观测的数据x和θ^(i),计算p(Z=z|x;θ^(i));M步:利用计算出来的z和x,计算模型参数θ^(i+1)。两个步骤交替进行,找到最终的模型参数θ:
贝叶斯准则(式(12))是一个从先验分布和似然函数推断后验分布的过程,为了更灵活地考虑知识,我们团队提出了正则化贝叶斯(regularizedBayesianinference,RegBayes)[71],它基于贝叶斯定理的信息论描述[72],通过引入后验正则化,在变分优化的框架下可以灵活地考虑领域知识(如基于逻辑表达式的知识[73])或者学习任务优化的目标(如最大间隔损失[74])等.
更进一步的,贝叶斯深度学习是将贝叶斯学习的基本原理与深度神经网络的表示学习有机融合的一类方法,融合主要体现在两个方面,(1)用贝叶斯方法更好地学习深度神经网络(如贝叶斯神经网络、高斯过程等),包括计算预测的不确定性、避免过拟合等;(2)用深度神经网络作为非线性函数变换定义更加丰富灵活的贝叶斯模型,如图8所示,包括深度生成模型(如GAN,VAE,基于可逆变换的流模型等).其中第1种融合早在20世纪90年代就被霍普菲尔德(J.Hopfield)和辛顿指导博士生系统研究过[75,76],当时的算力和数据都很有限,稍微大一点的神经网络都面临着严重的过拟合,因此,那时候就开始研究用贝叶斯方法保护神经网络,并且选择合适的网络结构.随着神经网络的加深,贝叶斯方法又引起了很多研究兴趣,主要进展包括对深度贝叶斯神经网络进行高效的(近似)计算,需要克服的主要困难是深度网络过参数化(over-parametrization)带来的维数灾难.在这方面,我们团队进行了深入研究,先后提出了隐式变分推断(implicitvariationalinference)算法[77,78],在泛函空间进行粒子优化的推断算法(functionalvariationalinference)[79]等.
对于第2种融合,我们知道一个简单分布的随机变量z经过函数f变化之后,得到的变量x=f(z),具有更复杂的分布,当f是一个双射变换时,我们可以得到x分布的解析形式
但是,在处理复杂数据时,f是未知的,因此,我们希望从数据中进行学习.利用深度神经网络的强大拟合能力,我们将f定义成一个深度神经网络,通过一定的准则学习最优的f_θ.如图8所示,这种想法被证明是非常有效的,已经发展了包括VAE,GAN以及基于流的模型(flow-basedmodels),即使在完全无监督训练下,这些模型都可以产生高质量的自然图片或人脸等.
具体的,这几种模型的区别在于定义x的变化函数,在VAE中,
其中ϵ是一个噪声变量(如白噪声对应的标准高斯分布);在GAN和基于流的模型中,没有显式的噪声变量。这种区别带来了参数估计上的不同,VAE和基于流的模型采用最大似然估计,而GAN定义了对抗学习的目标——「最大最小博弈」。同样的,这些模型虽然功能强大,但是给推断和学习也带来了很多挑战。例如,GAN网络的训练过程经常是不稳定的,会遇到梯度消失或梯度爆炸等问题,我们团队最新的成果利用控制论对这一问题进行了分析研究,提出了有效的反馈机制,能够让GAN的训练更平稳[80]。此外,基于可逆变换的流模型往往受限于维数的约束,为此,我们提出了自适应数据增广的流模型[81],显著提升这类模型的表达能力。
基于上述介绍,能够看出贝叶斯深度学习提供了一种强大的建模语言,将不确定性建模和推断与深度表示学习有机融合,其关键挑战在于推断和学习算法。幸运的是,近年来,在算法方面取得了很多突破进展(如上所述)。同时,也发展了性能良好的概率编程库,支持贝叶斯深度学习模型的开发和部署。例如,我们团队研制的「珠算」[82]1),是最早的系统支持贝叶斯深度学习的开源库之一。在应用方面,贝叶斯深度学习的方法已经在时间序列预测、半监督学习、无监督学习、小样本学习、持续学习等复杂场景下,取得良好的效果.
3.2.4单一空间中的计算
如图6所示,我们要在单一的向量空间中,对来自文本的嵌入向量和来自视听觉的特征向量进行计算,存在一定的难度.因为文本中以符号表示的词,经嵌入之后变成向量时损失了大量语义,从视听觉中提取的特征,虽然我们尽量获取更多的语义,但一般情况多属底层特征,语义含量很少.
我们将以视觉问答[83∼85]为例介绍这方面的初步尝试.在视觉问答中既有图像又有文本,需要在单一的向量空间中同时处理,涉及单一空间模型的使用。以本团队关于「篇章级图文问答」研究工作为例予以说明[85]。如图9所示,根据给定的图片,回答以下问题,「在大陆地壳下面有多少层(类型)?」,除问题以文本形式表示之外,还有一个与图片相关的篇章「板块运动」。
首先通过词嵌入(采用Word2Vec中的Skip-gram策略),将「问题」与「篇章」中的以离散符号表示的词转换为向量.图片经ResNet网络处理后,取res5c层的特征作为输出[55],它是一组高维空间的特征向量。然后将「问题」和「篇章」中的词向量与「图片」输出的特征向量做融合,以预测「答案」。为了更好地融合,通过注意机制,先找出「问题」和「篇章」中的「关键词」,这些关键词能够更好地反映「问题」的主题(语义)。再依据关键词通过「空间注意机制」找出图片中关键区域的特征,因为这些特征更符合关键词向量所表达的主题,因此融合效果会更好。这里采用的融合方法是双线性池化(multimodalbilinearpooling)方法。「图文问答」是选择题,备选方案有「1」,「2」,「3」三种,将融合后的向量与备选方案的向量相比较,取最接近的一个向量作为输出,这里是「2」(向量)。
图文问答目前达到的水平与人类相比相差很远,以「选择题」为例,目前达到的水平只比随机猜测略好。
4总结
为了实现第三代AI的目标,我们采用三空间融合的模型,即融合双空间与单空间两种模型,如图10所示。双空间模型采用类脑的工作机制,如果实现的话,机器就会像人类大脑的行为一样,具有可解释性与鲁棒性。此外,当把感觉(视觉、听觉等)信号提升为感知(符号)时,机器就具备一定的理解能力,因此也解决了可解释和鲁棒的问题。当机器中的基本概念(符号)可由感知产生时,符号就有了基础(根基),符号与符号推理就有了内在的语义,从根本上解决了机器行为的可解释与鲁棒性的问题。单空间模型以深度学习为基础,存在不可解释与不鲁棒的缺陷,如果经过改进提高了其可解释性与鲁棒性,就从另外一个方向迈向第三代AI.
双空间模型模仿了大脑的工作机制,但由于我们对大脑的工作机制了解得很少,这条道路存在某些不确定性,比如,机器通过与环境的交互学习(强化学习)所建立的「内在语义」,与人类通过感知所获取的「内在语义」是否一样,机器是否也能具有意识?等,目前还不能肯定。尽管存在这些困难,但我们相信机器只要朝这个方向迈出一步,就会更接近于真正的AI。单一空间模型是以深度学习为基础,优点是充分利用计算机的算力,在一些方面会表现出比人类优越的性能。但深度学习存在一些根本性的缺点,通过算法的改进究竟能得到多大程度的进步,也存在不确定性,需要进一步探索。但是,我们也相信对于深度学习的每一步改进,都将推动AI向前发展。
考虑以上这些不确定性,为了实现第三代AI的目标,最好的策略是同时沿着这两条路线前进,即三空间的融合,如图10所示。这种策略的好处是,既最大限度地借鉴大脑的工作机制,又充分利用计算机的算力,二者的结合,有望建造更加强大的AI。
返回搜狐,查看更多
人工智能可能有自主意识了吗
➤大模型、大数据的驱动让人工智能在对话的自然度、趣味性上有了很大突破,但距离具备自主意识还很远。换言之,即便人工智能可以对人类的语言、表情所传递的情绪作出判断,但这主要应用的是自然语言处理、计算机视觉等技术
➤不同于当前依赖数据学习的技术路线,新一代人工智能强调在没有经过数据学习的情况下,可以通过推理作出合理反应,从而与没有见过、没有学过的事物展开交互
➤当前人工智能治理面临的最大挑战,是我们没有一套比较成熟的体系来规制其潜在的风险。在发展科技的同时,必须同步发展我们的规制体系
➤“技术归根结底是由人类来发展和把控的。人类和人工智能的未来,是由人类选择的。”
今年6月,美国谷歌公司软件工程师布莱克·勒莫因称语言模型LaMDA出现自我意识。他认为,LaMDA拥有七八岁孩童的智力,并相信LaMDA正在争取自己作为一个人的权利。
LaMDA是谷歌去年发布的一款专门用于对话的语言模型,主要功能是可以与人类交谈。
为佐证观点,勒莫因把自己和LaMDA的聊天记录上传至互联网。随后,谷歌以违反保密协议为由对其停职。谷歌表示,没有任何证据支持勒莫因的观点。
事实上,“AI(人工智能)是否拥有自主意识”一直争议不休。此次谷歌工程师和LaMDA的故事,再次引发讨论。人们想知道:人工智能技术究竟发展到了怎样的阶段?是否真的具备自主意识?其判定依据是什么?未来我们又该以怎样的能力和心态与人工智能和谐共处?
人工智能自主意识之辨勒莫因认为LaMDA具有意识的原因有三:一是LaMDA以前所未有的方式高效、创造性地使用语言;二是它以与人类相似的方式分享感觉;三是它会表达内省和想象,既会担忧未来,也会追忆过去。
受访专家告诉《瞭望》新闻周刊记者,上述现象仅仅是因为LaMDA所基于的Transformer架构能够联系上下文,进行高精度的人类对话模拟,故能应对人类开放、发散的交谈。
至于人工智能是否已经具备自主意识,判定标准如何,受访专家表示,对人类意识的探索目前仍属于科技前沿,尚未形成统一定义。
清华大学北京信息科学与技术国家研究中心助理研究员郭雨晨说:“我们说人有自主意识,是因为人知道自己在干什么。机器则不一样,你对它输入内容,它只是依照程序设定进行反馈。”
中国社会科学院科学技术哲学研究室主任段伟文认为,一般意义上,人的自我意识是指对自我具备觉知,但如何认识和理解人类意识更多还是一个哲学问题而不是科学问题,这也是很难明确定义人工智能是否具备意识的原因。
被誉为“计算机科学与人工智能之父”的艾伦·图灵,早在1950年就曾提出图灵测试——如果一台机器能够与人类展开对话而不能被辨别出其机器身份,那么可以称这台机器具有智能。
这一设想随后被具化为,如果有超过30%参与测试的人以为自己在和人说话而非计算机,就可以认为“机器会思考”。
当前随着技术的发展,已经有越来越多的机器能够通过图灵测试。
但清华大学人工智能国际治理研究院副院长梁正告诉《瞭望》新闻周刊记者,图灵测试只能证明机器在表象上可以做到让人无法分辨它与人类的不同,却不能证明机器能够思考,更不能证明机器具备自主意识。
段伟文表示,目前大体有两种方式判定人工智能是否具有自主意识,一种以人类意识为参照,另一种则试图对机器意识进行全新定义。
若以人类意识为参照,要观察机器能否像人一样整合信息。“比如你在阳光下,坐在河边的椅子上看书,有树影落在脸上,有风吹来,它们会带给你一种整体的愉悦感。而对机器来说,阳光、河流、椅子等,是分散的单一元素。”段伟文说。
不仅如此,段伟文说,还要观察机器能否像人一样将单一事件放在全局中思考,作出符合全局利益的决策。
若跳出人类构建自主意识的范式,对机器意识进行重新定义,则需要明白意识的本质是什么。
段伟文告诉记者,有理论认为如果机器与机器之间形成了灵活、独立的交互,则可以称机器具备意识。也有理论认为,可以不追究机器的内心,仅仅把机器当作行为体,从机器的行为表现判断它是否理解所做事情的意义。“比如机器人看到人类喝咖啡后很精神,下次当它观察到人类的疲惫,能不能想到要为人类煮一杯咖啡?”段伟文说。
但在段伟文看来,这些对机器意识进行重新定义的理论,其问题出在,即便能够证明机器可以交互对话、深度理解,但是否等同于具备自主意识尚未有定论。“以LaMDA为例,虽然能够生成在人类看来更具意义的对话,甚至人可以与机器在对话中产生共情,但其本质仍然是在数据采集、配对、筛选机制下形成的反馈,并不代表模型能够理解对话的意义。”
换言之,即便人工智能可以对人类的语言、表情所传递的情绪作出判断,但这主要应用的是自然语言处理、计算机视觉等技术。
郭雨晨直言,尽管在情感计算方面,通过深度学习的推动已经发展得比较好,但如果就此说人工智能具备意识还有些一厢情愿。“把‘意识’这个词换成‘功能’,我会觉得更加准确。”
技术换道有专家提出,若要机器能思考,先要解决人工智能发展的换道问题。
据了解,目前基于深度学习、由数据驱动的人工智能在技术上已经触及天花板。一个突出例证是,阿尔法围棋(AlphaGo)在击败人类围棋世界冠军后,虽然财力和算力不断投入,但深度学习的回报率却没有相应增长。
一般认为,人工智能可被分为弱人工智能、通用人工智能和超级人工智能。弱人工智能也被称为狭义人工智能,专攻某一领域;通用人工智能也叫强人工智能,主要目标是制造出一台像人类一样拥有全面智能的计算机;超级人工智能类似于科幻作品中拥有超能力的智能机器人。
从产业发展角度看,人工智能在弱人工智能阶段停留了相当长时间,正在向通用人工智能阶段迈进。受访专家表示,目前尚未有成功创建通用人工智能的成熟案例,而具备自主意识,至少需要发展到通用人工智能阶段。
梁正说,大模型、大数据的驱动让人工智能在对话的自然度、趣味性上有了很大突破,但距离具备自主意识还很远。“如果你给这类语言模型喂养大量关于内省、想象等与意识有关的数据,它便更容易反馈与意识有关的回应。”
不仅如此,现阶段的人工智能在一个复杂、专门的领域可以做到极致,却很难完成一件在人类看来非常简单的事情。“比如人工智能可以成为围棋高手,却不具备三岁小孩对陌生环境的感知能力。”段伟文说。
谈及背后原因,受访专家表示,第一是当前人工智能主要与符号世界进行交互,在对物理世界的感知与反应上发展缓慢。第二是数据学习让机器只能对见过的内容有合理反馈,无法处理陌生内容。第三是在数据驱动技术路线下,人们通过不断调整、优化参数来强化机器反馈的精准度,但这种调适终究有限。
郭雨晨说,人类在特定任务的学习过程中接触的数据量并不大,却可以很快学习新技能、完成新任务,这是目前基于数据驱动的人工智能所不具备的能力。
梁正强调,不同于当前主要依赖大规模数据训练的技术路线,新一代人工智能强调在没有经过数据训练的情况下,可以通过推理作出合理反应,从而与没有见过、没有学过的事物展开交互。
相比人类意识的自由开放,以往人工智能更多处在封闭空间。尽管这个空间可能足够大,但若超出设定范畴便无法处理。而人类如果按照规则不能解决问题,就会修改规则,甚至发明新规则。
这意味着,如果人工智能能够超越现有学习模式,拥有对自身意识系统进行反思的能力,就会理解自身系统的基本性质,就有可能改造自身的意识系统,创造新规则,从而成为自己的主人。
“人工智能觉醒”背后有关“人工智能觉醒”的讨论已不鲜见,但谷歌迅速否认的态度耐人寻味。
梁正表示:“如果不迅速驳斥指认,会给谷歌带来合规性方面的麻烦。”
据了解,关于人工智能是否有自主意识的争论并非单纯技术领域的学术探讨,而关乎企业合规性的基本坚守。一旦认定公司研发的人工智能系统出现自主意识,很可能会被认为违反第2版《人工智能设计的伦理准则》白皮书的相关规范。
这一由美国电气和电子工程师协会2017年发布的规范明确:“根据某些理论,当系统接近并超过通用人工智能时,无法预料的或无意的系统行为将变得越来越危险且难以纠正。并不是所有通用人工智能级别的系统都能够与人类利益保持一致,因此,当这些系统的能力越来越强大时,应当谨慎并确定不同系统的运行机制。”
梁正认为,为避免社会舆论可能的过度负面解读,担心大家认为它培育出了英国作家玛丽·雪莱笔下的弗兰肯斯坦式的科技怪物,以“不作恶”为企业口号的谷歌自然会予以否认。“不仅如此,尽管这一原则对企业没有强制约束力,但若被认为突破了底线,并对个体和社会造成实质性伤害,很有可能面临高额的惩罚性赔偿,因此企业在合规性方面会更为谨慎。”
我国也有类似管理规范。2019年,国家新一代人工智能治理专业委员会发布《新一代人工智能治理原则——发展负责任的人工智能》,提出人工智能治理的框架和行动指南。其中,“敏捷治理”原则主要针对技术可能带来的新社会风险展开治理,强调治理的适应性与灵活性。
中国信息化百人会成员、清华大学教授薛澜在接受媒体采访时表示,当前人工智能治理面临的最大挑战,是我们没有一套比较成熟的体系来规制其潜在的风险。特别是在第四次工业革命背景下,我国的人工智能技术和其他国家一样都处于发展期,没有现成的规制体系,这样就使得我们在发展科技的同时,必须同步发展我们的规制体系。“这可能是人工智能发展面临最大的挑战。”
在梁正看来,目前很难断言新兴人工智能技术具有绝对风险,但必须构造合理的熔断、叫停机制。在治理中既要具有一定的预见性,又不能扼杀创新的土壤,要在企业诉求和公共安全之间找到合适的平衡点。
毕竟,对人类来说,发展人工智能的目的不是把机器变成人,更不是把人变成机器,而是解决人类社会发展面临的问题。
从这个角度来说,我们需要的或许只是帮助人类而不是代替人类的人工智能。
为了人机友好的未来确保通用人工智能技术有益于人类福祉,一直是人工智能伦理构建的前沿。
薛澜认为,在科技领域,很多技术都像硬币的两面,在带来正面效应的同时也会存在风险,人工智能就是其中一个比较突出的领域。如何在促进技术创新和规制潜在风险之间寻求平衡,是科技伦理必须关注的问题。
梁正提出,有时技术的发展会超越人们预想的框架,在不自觉的情况下出现与人类利益不一致甚至相悖的情况。著名的“曲别针制造机”假说,即描述了通用人工智能在目标和技术都无害的情况下,对人类造成威胁的情景。
“曲别针制造机”假说给定一种技术模型,假设某个人工智能机器的终极目标是制造曲别针,尽管看上去这一目的对人类无害,但最终它却使用人类无法比拟的能力,把世界上所有资源都做成了曲别针,进而对人类社会产生不可逆的伤害。
因此有观点认为,创造出法力高超又杀不死的孙悟空本身就是一种不顾后果的冒险行为。
与其对立的观点则认为,目前这一担忧为时尚早。
“我们对到底什么样的技术路线能够发展出具备自主意识的人工智能尚无共识,现在谈论‘禁止发展’,有种空中楼阁的意味。”梁正说。
商汤科技智能产业研究院院长田丰告诉《瞭望》新闻周刊,现实中人工智能技术伦理风险治理的关键,是产业能够在“预判防范-应用场景-用户反馈-产品改进”中形成市场反馈机制,促成伦理风险识别与敏捷治理。同时,企业内部也需建立完整的科技伦理自律机制,通过伦理委员会、伦理风控流程平台将伦理风险把控落实到产品全生命周期中。
郭雨晨说,人工智能技术发展到目前,仍始终处于人类可控状态,而科技发展的过程本来就伴随对衍生问题的预判、发现和解决。“在想象中的人工智能自主意识出现以前,人工智能技术脚踏实地的发展,已经造福人类社会很多年了。”
在梁正看来,人与人工智能在未来会是一种合作关系,各自具备对方无法达成的能力。“技术归根结底是由人类来发展和把控的。人类和人工智能的未来,是由人类选择的。”
编辑:李华山
2022年08月16日07:42:05
张钹:中国人工智能奠基者
张钹近影
张钹(左一)在实验室与博士生讨论。(1995年)
张钹(右)与张玲讨论人工智能学术问题。(1992年)
参与清华大学智能机器人实验室建设的科研人员合影。左一为张钹。(1985年)
科学家寄语
当前,全球科技创新进入空前密集活跃期,特别是新一代信息技术加速突破应用,推动新一轮科技革命和产业变革重构全球创新版图。人工智能作为新一代信息技术的战略重点之一,近年来获得长足进步,给经济社会发展产生了重大而深远的影响。
近年来,中国在人工智能领域表现亮眼,已成为世界人工智能主要创新中心之一。根据《人工智能发展报告2020》,在人工智能高层次人才数量和专利申请量等关键指标上,中国位居世界前列。这亮眼表现的背后离不开以中国科学院院士张钹等为代表的中国科学家作出的奠基性、开创性贡献。
早在40多年前,张钹就开始投身人工智能领域研究,发表了中国第一篇人工智能领域的学术论文、获得中国在人工智能领域的第一个国际重要奖项、领衔成立国内首个智能机器人实验室、培养了本土第一位人工智能领域博士毕业生,组建中国第一个人工智能国家重点实验室……这些“第一”树立了中国人工智能发展的一个个里程碑,推动中国在此领域大踏步前进。
从不被看好到刮目相看
中年成功转型研究人工智能
今天,“人工智能”是人们耳熟能详的热词,但是在40多年前,中国科技界对该词汇还很陌生,科技领域的专业人士对该领域也知之甚少。1978年,已从清华大学毕业留校任教20年的张钹由于所在系调整而改变专业方向,进入一个全新研究领域——人工智能。
张钹时年43岁,中年转型不仅知识结构上面临很大挑战,而且对人工智能领域国内知之甚少,求教无门。张钹回忆说:“当时国内科研人员对人工智能领域发展的认识很有限,甚至相关资料也非常少。”当时,国际上人工智能已经有了约20年发展历程。随着国门打开,国际科技合作与交流兴起,张钹获得了与国际同行交往的机会。
1980年初,张钹赴美访学。然而,抵达美国后,他就在与外国同行交流中感到一种说不出的尴尬和郁闷。“你们是从中国来的?知道什么是人工智能吗?”有外国研究者提出这样的问题。张钹很受刺激,立志让中国在人工智能领域奋起直追,迎头赶上国际先进水平,赢得外国同行的尊敬。
在访学过程中,张钹率先发现数学与人工智能结合的广阔前景。张钹说:“当时,我觉得人工智能要深入发展下去,提高算法效率,必须要很好利用数学这个工具。”于是,他选择跟数学出身当时尚在安徽大学任教的张铃教授合作,一起推进人工智能研究。
由于跨国电话资费昂贵,两人只能通过邮寄书信的方式进行沟通。对当年与张铃中美飞鸿、合作科研的往事,张钹介绍说:“当时,中美间一封航空信大概要人民币8角钱,寄给对方约10天才能收到,一来一回就要约20天。我们计算过,一封信如果超过5张纸,就会超重,须多付邮资。为了省钱,我们特意挑相对薄的纸,写非常小的字。”
就这样,张钹跟张铃开始了一场跨越大洋的人工智能合作研究。约1年后,他们联手完成了一篇人工智能领域的论文,实际上这也是中国科学家在人工智能领域的第一篇学术论文,成功发表于人工智能领域顶级国际期刊《IEEE模式分析与机器智能汇刊》,引起了国际同行的高度关注,这让张钹等中国学人颇为扬眉吐气,也增强了他为中国人工智能发展作出更大贡献的信心和决心。
从少年郎到白发翁
水木清华育人六十余载
1982年初,张钹结束访学回国,着手进一步开拓人工智能研究。为了解产业界对人工智能技术的需求,更好促进科技成果转化,张钹与其他科研人员一起深入从西南到东北的很多工厂调研,形成了基本判断:机器人将来会成为国内一项重大需求。
根据上述判断,张钹领衔组建了清华大学智能机器人实验室并着手购置重要试验装备。为此,张钹与同事们多方奔走、筹措经费,联系国内外相关厂家,进行洽谈协商。在有关方面的大力协助下,清华大学智能机器人实验室成功添置了中国第一台进口机械臂。
机械臂是高精度、高度非线性、强耦合的复杂系统,是人工智能的工业智能化应用的典型。对于清华大学智能机器人实验室而言,引入这款机械臂对于科研和教学无疑具有重要价值和意义。张钹对此非常期待并倾注了大量心血。他回忆说:“当我知道机器臂已经装上飞机,正在飞往北京时,那种兴奋真的难以言表。” 机械臂运抵北京后,张钹亲自跟车到机场“迎接”,直到搬运、装车、运抵清华园,他才终于松了一口气。
关于自己的职业生涯,张钹曾这样概括说:“我一辈子就做了两件事,一件是读书,另一件就是在清华大学教书育人。”
从毕业留校至今,张钹在清华大学的三尺讲台上坚守了超过一甲子。从不满24岁初登讲台的青涩年华到耄耋之年,他可谓桃李满天下,为国家培养、输送一批高科技专才,尤其是在人工智能领域。据统计,他培养的博士研究生近九十名。
万事开头难。人工智能作为当时中国的新兴学科,科研和教学的条件都很艰苦。张钹介绍说,那时候,虽然他们的研究已经有了一定基础,但是软硬件条件与国际同行相比,差距很大,研究资料也不足,特别是专业、权威资料匮乏,更多是靠自力更生摸索。在那样的环境下,想留住优秀人才着实不易。面对徘徊在出国或留校读博士并向他请教的学生,张钹语重心长地说:“国外知名导师的科研、教学水平比我高,培养条件也比我这里好。你们选择出国深造和科研,我非常支持。但是如果你选择留下来,我会全心全意地培养你,绝不辜负。”肺腑之言感人至深,与他交谈的学生大部分选择了留下来,与他并肩奋战在人工智能领域并成长为行业的佼佼者。
从一片空白到创新中心
中国人工智能造福全人类
路漫漫其修远兮,吾将上下而求索。张钹和志同道合者正视差距、风雨兼程,一路追赶着国际人工智能发展前沿,取得了丰硕成果。
1983年是张钹人工智能科研的丰收年。当年,国际人工智能大会在德国召开,张钹和张铃一起成为率先在国际人工智能大会上发表论文的中国科学家。1984年,他和张铃摘得一项欧洲人工智能奖项,成为首次获得该领域国际重要奖项的中国人。1985年,他领衔成立了中国首个智能机器人实验室。1987年,他培养的中国第一位人工智能领域的博士生毕业。1990年,他和同事一起成立了全国第一个人工智能国家重点实验室——“智能技术与系统”国家重点实验室。1987-1994年,张钹出任国家“863计划”即高技术计划智能机器人主题专家组专家,承担国家重点攻关课题。2018年,清华大学人工智能研究院成立,张钹出任研究院院长。
作为中国人工智能主要奠基者和发展推动者,40多年来,张钹矢志不渝致力于中国人工智能领域的创新,发表或共同发表了数百篇学术论文,出版系列专著。他获得了诸多奖项,其中包括ICL欧洲人工智能奖、国家自然科学三等奖、国家科技进步三等奖、国家教委科技进步一、二等奖、电子工业部科技进步一等奖以及国防科工委科技进步一等奖,推动中国人工智能研究和产业向世界一流水平迈进。相关资料显示,中国在图像识别、语音识别等技术创新应用进入了世界先进行列,人工智能发明专利授权总量全球排名第一,核心产业规模持续增长。
“在第三代人工智能发展上,中国科学家今天与国际同行处在同一起跑线上。我们已经摸索出中国人工智能的发展道路,正在向新的科技高峰继续攀登,我们有能力为造福国家和民族、造福全人类作出更多、更大贡献。”张钹表示。
虽已经86岁高龄,但是张钹仍担任清华大学人工智能研究院名誉院长,活跃在科研创新领域。科技创新永无止境,人工智能技术发展永远在路上,矢志不移、创新不止的科学家永远年轻。这是张钹的写照。
(原载于《人民日报海外版》2021-08-3009版)
专访清华大学人工智能国际治理研究院院长薛澜:数据安全再怎么强调也不过分
9月1日,世界人工智能大会在上海举行。清华大学苏世民书院院长、人工智能国际治理研究院院长、国家新一代人工智能治理专业委员会主任薛澜在本届人工智能治理论坛上,谈到人工智能需进入敏捷治理阶段,在政府主导的同时,多元参与协同互动。
在论坛间隙,薛澜接受南都记者的专访,就算法歧视、算法公开、数据泄露、行业自治等热点话题展开对话。薛澜认为,目前广受关注的算法公开问题,需要政府和企业之间建立互信,找到核心症结所在,使政府监管更有效,企业合规成本更低。除了政府监管的外力,企业也需加强自治,要有科技向善的价值导向。
Q1:你觉得目前算法治理领域的突出问题有哪些?
大家比较关注的,比如说算法歧视的问题。计算机也是根据全社会的数据进行深度学习的,可能会纳入一些原有的歧视。算法的不透明,也会使人们对结果的可靠可信程度抱有疑问。这是目前两个比较突出的问题。
Q2:你觉得算法治理目前面临什么难点?
首先,国家已经出台对算法治理的一些要求和规则,这个我觉得是非常必要的。这些规则有助于实现刚才讲到的,减少算法歧视,降低不透明带来的潜在风险。但任何新兴技术在其治理规则形成的过程中都会出现一个问题。比如监管部门要求企业提供算法,但具体提供多少算法,提供到什么程度?其实监管部门不一定了解哪些才是核心,企业也需要有所取舍、选择能够提供的部分。因此双方之间有一个调整的过程,找到核心的症结,使政府的监管更有效,企业的合规成本更低,这个是我们需要解决的问题。
Q3:公众、企业和监管部门对算法公开都有不同的看法。你觉得应如何回应这些不同的认知和需求?接下来算法公开该往哪个方向走?
首先,我觉得让公众每一个人都了解人工智能的算法,其实不是件容易的事情。当然我们需要更多地去普及人工智能相关知识,但不一定要让大家全都了解背后的技术。就像我们看电视机,元器件怎么工作,我们不一定都了解。怎么保证使用的技术是安全可靠的?这时候政府就要发挥作用。公众觉得这个技术是通过相关行业标准、相关合规制度的,就觉得可以相信了。实际上,我们是在委托政府的相关部门对这个技术进行监管。
从公众角度来看是这样的,政府有这个责任了,就要想办法降低风险,采取各种措施来保证技术的安全可靠可信。但事实上政府也有局限性,所以这个时候就涉及到企业,企业对自己的技术是最了解的。在人工智能算法的治理过程中,企业要发挥自治。对企业来讲,政府的规制是外力,但企业内部应该要有科技向善的价值导向,通过科技创新发展为公众创造价值。这两个结合的话,就可能使人工智能治理更加顺利发展。
Q4:在人工智能治理领域,行业自治是一个被频繁提起话题。如何利用行业自治建立一个良好的行业氛围?
从企业自身来讲,我觉得尤其一些头部企业,包括商汤、美团等,现在都建立了伦理审查委员会,他们希望通过企业内部的机制进一步完善对技术的规制。
但光企业自己做,还是有一定局限性。所以我们特别期待中国人工智能这个行业,能够有行业协会发挥更大的作用,把各个企业好的经验整合起来,形成业内的标准规范,这方面是需要去努力的。
当然现在可能行业协会建设的方面还需要有一些改进。
Q5:近些年来随着大数据的使用,还有人工智能技术的普及,数据泄露和算法决策带来的一些问题,会给公众生活带来一定的不便。如何在大规模使用这些技术的同时,减少这些问题带来的风险?
我觉得这是两类问题。第一类是数据安全的问题,因为在大数据时代,人工智能靠的是大数据,不管是个人隐私,还是国家机构数据的安全,都是非常重要的。所以需要所有参与的人,不管是相关公司、机构,包括个人都要树立数据安全的概念,同时通过技术和制度进一步加强数据安全,我想这个是怎么强调都不过分的。
第二点就涉及到技术滥用的情况。比如电信诈骗的情况,我觉得一方面需要政府部门去严厉打击,另外我们每个人作为消费者,其实都有责任。一旦碰到滥用技术进行诈骗的,需要我们及时拿起法律武器,积极去举报去打击,使其没有藏身之地。