【云栖大会】阿里研究院:阿里巴巴人工智能应用的五部曲
本文转载自阿里商业评论 文|阿里数据经济研究中心秘书长潘永花 原文链接
从今年年初的AlphaGo人机大战之后,人工智能成为了产业界最受关注的一大热点。其实,从1956年人工智能概念出现迄今已经60年的历史了,人工智能也经历了几番起起落落。为何今天成为了业界热点呢?归结起来,实际上是三大技术基础的成熟和发展奠基了人工智能的落地。
人工智能=数据+计算能力+算法
首先,人工智能对计算能力的要求很高,而以前研究人工智能的科学家往往受限于单机计算能力,需要对数据样本进行裁剪,让数据在一台计算机里进行建模分析,导致模型的准确率降低。伴随着分布式计算能力的迅速发展,云计算平台可以利用成千上万台的机器进行计算,尤其是GPU的发展为加速人工智能落地奠定了基础计算能力,使得类似于人类的深层神经网络算法模型为代表的人工智能应用成为现实;
其次,大数据时代已经到来,多来源、实时、大量、多类型的数据可以从不同的角度对现实进行更为逼近真实的描述,而利用深度学习算法可以挖掘数据之间的多层次关联关系,为人工智能应用奠定了数据源基础;
第三,是算法的发展尤其是GeofHinton教授2006年发表的论文,开启了深度学习在学术界和工业界的浪潮,以人工神经网络(ANN)为代表的深度学习算法成为了人工智能应用落地的核心引擎。
因此,计算能力+数据+算法三者相辅相成、相互依赖、相互促进,使得人工智能有机会从专用的技术成为通用的技术,融入到各行各业之中。
阿里巴巴在人工智能技术研发以及应用场景方面进行了大量的实践,通过在电商、物流和金融相关的业务应用场景中不断积累人工智能核心技术,并逐渐通过阿里云ET平台输出到交通、政府、娱乐等更多的行业之中。
1.人工智能从替代客户服务到个性化助理
客户服务是很多行业的通用场景,覆盖银行、保险、电信、零售、制造、电商等多个行业,过往这些行业主要依靠自建或者租用呼叫中心,雇佣大量的客户服务人员提供服务,而大部分企业的客户服务中心都是企业的成本中心。
伴随着基于人工智能技术的智能客服的出现和发展,客服人员可能真会在不远的将来被机器替代掉了。Gartner最新报告预测,2020年智能机器人座席能满足40%的客服市场需求。未来,基于人工智能技术的智能机器人客服不仅能理解客户语言的上下文语义,还具备自我学习能力,可以理解口语化问题、分辨问题焦点,大大提升服务效率和水平,同时能够给客户提供更好的个性化体验。
以2015年7月阿里巴巴集团发布的人工智能购物助理虚拟机器人“阿里小蜜”为例,它的目标就是致力于成为会员的购物私人助理,让会员专享1对1的客户顾问服务、全程陪伴式、安全有保障的购物体验。这款应用基于语音识别、语义理解、个性化推荐、深度学习等人工智能技术,支持上下文理解的多轮对话,以及个性化记忆功能,同时机器人每天都会去学习几百万条人工的服务记录以及海量的知识源,自动改善智能解决能力。在淘宝和天猫平台上,每天有近5万次热线电话求助,无线端的在线服务量更是每天都超过100万次。
目前,“阿里小蜜”在每天应对百万级服务量的情况下,智能解决率达到了接近80%,甚至在部分重点场景上已经达到95%的智能解决率,满意度比传统的自助服务提升了一倍。同时,阿里巴巴利用人工智能技术对客户服务质量进行监控,减少人工干预,大幅提高了服务质量。
除了成为客户服务助理之外,基于人工智能的虚拟机器人融入更深入的语音识别、自然语言处理等技术,未来将会在很多场景下可能成为个性化助理,为不同的客户依据个性化需求提供不同的服务,能真正和人进行深入沟通,使得机器与人的交流更加自然、亲切和人情味,比如家庭服务、医疗服务、购物助手等。
2.计算机视觉技术在电商场景应用广泛:从身份识别、图片搜索到违规图片识别
计算机视觉技术是人工智能技术的核心技术之一。而作为计算机视觉技术中的关键基础,指纹及人脸等生物识别技术目前已经开始应用在身份识别的多个领域,比如支付宝钱包已经能够支持指纹和人脸识别的身份认证,刷脸支付成为了现实。
在未来,实现“所见即所得”会是电商的重要方向,图片搜索更将成为人们获取信息的常态。图像识别在手机淘宝的“拍立淘”产品中已经开始应用,通过手机拍照即可搜索相似商品,2015年双11当天,千万消费者使用了“拍立淘”功能,创造了超过数千万元的销售额。
图中文字识别(OCR)一直是计算机视觉领域的难点。阿里巴巴平台很多营销创意、商品都以图片形式存在,同时,也有一些商家在图片中内嵌违规的信息实现恶意推广的目的,图片内文字违规是比例相当大的一类,而传统监控手段多以人工肉眼来审核,费时费力,尤其是随着图片数量越来越大,这几乎已成为不可完成的任务。从2014年开始,阿里妈妈图像团队开始重点攻坚OCR技术,通过机器视觉的方式从图片中识别出文字,从而鉴别出违规的文案信息。
2016年6月,阿里巴巴旗下广告交易平台阿里妈妈图像团队的OCR(图中文字识别)技术刷新了ICDARRobustReading竞赛数据集的全球最好成绩,并大幅超越第二名。借助这一领先的OCR技术,阿里妈妈图像团队能够以95%的超高准确率识别图中违规文字信息,有效过滤商家恶意推广,维护消费者权益。2015年,阿里妈妈累计屏蔽了4600万条恶意推广。
阿里绿网依托于阿里巴巴全生态体系,拥有海量的特征样本及丰富的数据模型分析经验,也利用OCR技术进行了黄色图片鉴别。根据技术人员的测试,通过人工智能技术鉴别黄色图片,准确率高达99.6%以上。
3.人工智能在金融业应用:从客服、风控到业务创新
人工智能未来会重构金融服务的生态,成为普惠金融的基石,金融的个性化、场景化服务成为主要创新方向。伴随着基于大数据的机器学习算法的发展以及语音识别、人脸识别、自然语言处理技术的日趋成熟,蚂蚁金服已经将人工智能技术运用于蚂蚁微贷、保险、征信、风险控制、客户服务等多个领域。比如通过机器学习技术把蚂蚁微贷和花呗的虚假交易率降低了10倍。为支付宝的证件审核系统开发的OCR系统,使证件校核时间从1天缩小到1秒,同时提升了30%的通过率。2015年“双11”期间,蚂蚁金服95%的远程客户服务已经由智能机器人完成,同时实现了100%的自动语音识别。
蚂蚁金服与保险公司合作的“航空退票险”上线之后赔付率一度高达190%,保险公司面临巨大的亏损压力。通过引入机器学习技术,大数据技术建模、优化后,有效地降低了赔付率,并成功扭亏为盈,满足了保险公司的核保要求。
4.人工智能助力交通出行
从交通的角度来看,今天的交通拥堵对于城市管理者来说是个很大的难题,对于出行者来说路径的选择也一直是个问题;想像一下伴随着基于人工智能的无人驾驶汽车、无人机、送货机器人等产品的问世和成熟,交通管理的范畴将会变得更加复杂多变。阿里巴巴在利用人工智能技术实现交通状况的预测、控制和管理方面进行了一些有益的探索。
在交通拥堵控制和预测方面,基于交通历史数据,实时路况数据,手机基站信令数据,视频监控数据,信号灯运行数据等多数据源的整合,使用人工智能中的机器学习算法,可以实现交通拥堵的提前预测,并提醒管理者提前采取相应措施,同时也能帮助交通管理部门进行道路的更合理规划设计和对交通信号装置等相关因素进行调整,降低路况拥堵率。比如,为了解决拥堵难题,广州市交警近日引入人工智能技术阿里云ET搭建了“互联网+信号灯”控制优化平台。据了解,ET可对路口车辆运行情况进行分析,并输出对红绿灯时间的调整建议。试点结果显示,部分路段拥堵指数下降超25%。
同时,大数据与机器学习能力的结合还能够帮助出行者实现更优质的智能出行决策,可以根据用户地域、距离、时长、工具等不同场景学习不同的出行决策,形成出行决策模型;根据用户的定位数据、出行数据、反馈数据,也可以为用户提供省时、省力以及舒适性的偏好决策模型。比如,高德推出高德地图AI引擎,该引擎将基于高德出行大数据和机器学习能力,面向不同环境和需求,为用户提供“千人千面”的位置出行服务。
5.人工智能解放速记员和书记员?
根据Gartner预测,到2018年,客户数字助手将能跨渠道和合作伙伴识别人脸和声音:机器在倾听指令和告诉我们该做什么上比真人表现更好。语音识别和自然语言处理技术基础上的人工智能应用场景非常丰富,速记员和书记员的未来可能被智能机器人替代。
比如,在今年的阿里云2016年会上,阿里云ET的速记能力就曾在准确率方面以0.67%的微弱优势战胜第50届国际速联速记大赛全球速记亚军姜毅。9月13日,浙江省高级人民法院对外宣布,将在全省105家法院全面上线智能语音识别系统。该系统由阿里云人工智能ET提供技术支持,能够快速、准确的完成庭审记录,承担起“书记员”的角色。3个月前,系统曾在西湖区人民法院试点,准确率高达96%。这些都是阿里人工智能技术与行业应用场景落地的案例。
当然,目前的时代依然是弱人工智能时代,人工智能技术还主要为了解决特定的问题而存在,是任务型的人工智能,未来能否真的拥有人一样的思考、感知和认知能力还有很长的一段路要走。但总起来看,我们认为人工智能会有非常广泛的应用场景,既有通用的跨行业的场景,比如客户服务,个性化推荐,身份识别,网络营销,风险控制等;也会有针对某些特定行业的场景,比如交通出行、金融投资、医疗问诊、娱乐、制造、教育等行业的应用。
感谢阿里商业评论对2016杭州云栖大会的精彩报道!
专访阿里AI Labs王刚:让具有人工智能能力的产品走进千家万户!
阿里巴巴人工智能实验室和它的杰出科学家王刚,一直保持着几分神秘感。我们专程到杭州对王刚博士进行了专访。王刚博士认为,谷歌的“一个模型解决所有的问题”是不现实的。他表示人工智能新硬件和降低智能终端成本、生物认知启发、量子力学和量子计算机与深度学习的结合是个人感兴趣的方向,除了最后一项,其他都是实验室目前正在研发的。他谈到了学术界和工业界研发过程的区别,并介绍了阿里的AI人才计划。为了进一步了解王刚和阿里人工智能实验室正在做的事情,我们介绍了CVPR2017上阿里人工智能实验室入选的三篇论文,每一篇都有王刚博士的深度参与。
在德州扑克的赛场上,当有人Allin时,其实你只有两个选择:跟,或者弃。
在国内人工智能布局的赛道上,没有谁会选择“弃”。于是,已经低调成立一年的阿里人工智能实验室,在有人宣布Allin的同一天,高调亮相。
这一天出现在大家面前的,除了一台声线甜美的智能音箱,一位长相甜美的负责人,还有一位年轻的杰出科学家。当你以为这位科学家是其中最不性感的一环时,他却如此描述自己从南洋理工大学加盟阿里人工智能实验室的原因:
“做C端的产品,更性感一些。”
王刚,2017年3月加入阿里巴巴人工智能实验室,担任杰出科学家,负责机器学习、计算机视觉和自然语言理解的研发工作。他此前曾是南洋理工大学的终身教授,同时也是人工智能领域最顶尖杂志IEEETransactionsonPatternAnalysisandMachineIntelligence的编委(AssociateEditor),曾多次受邀成为人工智能顶级学术会议如InternationalConferenceonComputerVision的领域主席,在深度学习算法领域具有深厚的研究积累和国际权威。2016年,他还因在深度神经网络设计上的卓越贡献,成为当年《麻省理工技术评论杂志》评选出的10名亚洲区35岁以下青年创新奖得主之一。2005年,王刚本科毕业于哈尔滨工业大学,2010年在伊利诺伊大学香槟分校获博士学位。
在阿里人工智能实验室所在的杭州,王刚博士接受了新智元的专访。刚见到王刚博士时,我怀着这样一种想法:既希望他成为我们理解阿里人工智能实验室的钥匙,也希望阿里人工智能实验室成为我们理解他的钥匙。
专访综述:一个模型解决所有的问题是不现实的
作为深度学习算法的专家,王刚博士在计算机视觉和自然语言理解两大应用领域都做了很多工作。在采访中,他一方面强调了语音和视觉的结合对于人机交互的意义,认为“语音+视觉”是人机交互的未来,并表示实验室目前也很关注“视觉+文字”这样的多模态训练研究热点;而另一方面,他也明确指出,自己并不认同谷歌提出的“一个模型解决所有问题”,认为在每一个单独的领域,模型仍然是需要定制化的。
对于深度学习的发展,王刚博士谈了几个他感兴趣的方向,由此也能看到阿里人工智能实验室的一些研发方向。王刚博士谈到了人工智能新硬件和降低智能终端成本,生物认知启发,量子力学、量子计算机和深度学习的结合等。王刚博士说,除了最后一项,其他都是实验室目前正在研发的。
对于从大学教授到企业科学家的身份转换,王刚博士最大的感觉是兴奋和充实,因为他“喜欢落地或者商业化这样的东西”,而在学校进行这方面的研究“离市场和消费者太远了”。当然,他也坦言,作为已经在南洋理工大学拿到终身教职的他,目前的工作强度比在学校还是要大一些。
而谈到研究环境的差异时,王刚博士指出了两点:一是学术界的研究由政府投资,肩负着探索知识前沿的使命,需要探索5年后可能的技术方向,起到引领的作用,风险同时也不可避免,而工业界需要面临复杂的、千奇百怪的情况,在落地过程中需要对算法等进行大量的优化;二是学术界在做研究时首先需要将问题定义清楚,而有一些任务,其实并不容易定义,如计算机视觉的“理解”。工业界更关心的则是做出具体的产品,因此可能更有动力进行相关研发。
在王刚博士谈到加入阿里人工智能实验室的理由时,我们发现,这确实和阿里人工智能实验室将自己定位为提供消费级AI产品紧密相关。王刚博士此前在南洋理工大学就领导团队研发过时装搜索系统、辅助驾驶系统等密切结合应用场景的系统,且都成功商业化。来到阿里,“发现离消费者这么近,非常开心、兴奋、充实”、“做C端的产品,更性感一些”。他表示,自己的梦想和阿里人工智能实验室的梦想一样,都是希望“让具有人工智能能力的产品走进千家万户,给大众的生活带来便利。”
最后,王刚博士透露了阿里人工智能实验室的招聘计划。他表示,从2017年夏季开始,阿里将推出一项AI人才的校招计划,主要面向博士生群体,将涉及到计算机视觉、机器学习、NLP、图形图像、语音交互等技术方向。
一人斩获三篇CVPR论文
为了进一步了解王刚和阿里人工智能实验室正在做的事情,让我们首先介绍CVPR2017上阿里人工智能实验室入选的三篇论文,每一篇都有王刚博士的深度参与。三项研究分别针对深度学习和计算机视觉所涉及的上下文模拟、场景分割、行为理解等问题提出了解决办法。王刚表示:“这三篇论文都来自于深度学习中的应用场景,未来或将通过人工智能实验室进行落地,例如运用到家庭安全监测场景中”。
DeepLevelSetsforSalientObjectDetection结合深度网络的水平集方法在显著性目标检测中的应用
简介:
如图,a是输入图像,b是对应saliency区域的groundtruth,c、d对应使用BCEloss训练的深度网络和使用水平集方法的效果,e对应论文的方法;可以看到e在分割细节方面和groundtruth最为接近,效果更好,在细节方面提升明显。
显著性目标检测能够帮助计算机发现图片中最吸引人注意的区域,有效的图像分割和图像的语意属性对显著性目标检测非常重要。由南洋理工大学和阿里巴巴人工智能实验室合作,共同提出了一种结合深度网络的水平集方法,将分割信息和语意信息进行结合,获得了很好的效果。水平集方法是处理封闭运动界面随时间演化过程中几何拓扑变化的有效的计算工具,后来被用到图像分割算法当中。深度学习能够很好的建模显著性目标的语意属性,进而进行显著性目标检测,但更多的语意属性信息导致分割边界的低层信息不准确。论文巧妙的结合了深度网络和水平集方法(DeepLevelSets),同时利用图片低层的边界信息以及高层的语意信息,在显著性目标检测领域获得了state-of-art的效果。
GlobalContext-AwareAttentionLSTMNetworksfor3DActionRecognition将全局上下文注意力机制引入长短时记忆网络的3D动作识别简介:
如图,3D动作识别能够帮助计算及更好的理解人体动作(最左侧的文字),未来可以作为人机交互的一种补充。
3D动作识别能够帮助计算机更好的分析人的动作以及为多样化的人机交互提供更多的选择。一个好的3D动作识别系统需要很好的处理动作在时间(动作需要一定时延)、空间(结构)上的信息。LSTM(长短时记忆网络)能够很好的建模动态的、相互依赖的时间序列数据(如人的3D动作序列),注意力机制能够更有效的获取数据中的结构信息,并排除掉噪声的干扰。由南洋理工大学、北京大学、阿里巴巴人工智能实验室合作,论文结合LSTM和上下文注意力机制,提出了一种新的LSTM网络:GCA-LSTM(GlobalContext-AwareAttentionLSTM);用来建模动作序列中有效的全局上下文信息(时间信息+空间信息),进而进行3D动作识别。同时,论文为GCA-LSTM网络提出了一种循环注意力机制来迭代提升注意力模型的效果。论文方法在3个主流的3D动作识别数据集上都达到了state-of-art的效果。
EpisodicCAMN:ContextualAttention-basedMemoryNetworksWithIterativeFeedbackForSceneLabeling引入迭代反馈的上下文注意力机制记忆网络在场景分割中的应用
简介:
如图,这是场景分隔在自动驾驶中的应用,通过对路面场景进行分割,可以帮助无人车分析那部分区域是可行驶区域(如图粉红色部分)。
场景分割有着广阔的应用前景,比如自动驾驶汽车通过场景分割获取可行驶区域,比如室内机器人通过场景分割获知室内物体的分布。场景分割对待分割区域周围的区域以及全局信息有较强的依赖关系,但这种依赖关系是动态变化的(即使同一区域在不同的场景中对周围信息的依赖是不同的),因此动态的获知不同区域的依赖关系以及图像全局上下文特征的使用至关重要。由南洋理工大学,伊利诺伊大学厄巴纳-香槟分校,阿里巴巴人工智能实验室合作,论文通过一个可学习的注意力机制网络来刻画不同区域之间的依赖关系,并获取包含上下文信息的特征。进一步,论文通过引入迭代反馈的方式对注意力机制网络的输出进行调节,以获得更好的包含上下文的特征。上述方法在场景分隔任务中获得了和当前state-of-art算法相当的效果。
以下是新智元对王刚博士的专访。
语音加视觉是交互的未来
新智元:王刚博士,咱们的话题不妨从本月初发布的天猫精灵X1开始。这个项目中哪部分您参与的比较多?
王刚:我3月份加入AILabs,很快就深度参与了这个项目。主要是跟算法团队一起实现天猫精灵算法的落地,所以算法上参与比较多。
新智元:阿里人工智能实验室的英文是AILabs,为什么Lab用的是复数形式?
王刚:因为Labs里面有算法Lab,也有终端的Lab,等等,阿里人工智能实验室是一个航空母舰。
新智元:您认为语音会是下一代人机交互最重要的入口吗?
王刚:这要看人机交互的发展,我觉得近几年人机交互应该像人和人的交互一样,是往这个点去逼近的。人跟人之间的交互,主要是靠语言,再加上视觉,比如去阅读对方的表情或者各种情绪。我觉得语音肯定是下一代人机交互一个非常主要的部分,同时视觉加上语音会让这个交互更加高效。所以我认为语音加视觉是交互的未来。
从识别到理解,还缺少基础的一环
新智元:但是对于各种语音助理,有时用户体验并不好。这一方面可能有用户使用习惯的问题——因为语音助理会说话,用户就愿意去问它各种各样的问题,而目前场景限制其实是必要的。您认为除了这一点之外,智能语音助理想要带来更好的用户体验,技术上还需要哪些突破?
王刚:这是一个很好的问题。我们可以看到,天猫精灵X1在很多问题上还是做的比较好的,能够满足用户的很多需求。自然语言理解目前仍然是非常有挑战的任务。我这里指的是,对自然语言的理解有时是超出语言范畴的。比如说像网上有一个段子,说有两种人不能谈恋爱,一种是谁也看不上的人,另外一种是谁也看不上的人。如果让机器理解这两句话的区别,它首先需要知道这两种人到底有什么样的特征,这需要多维度的信息。但这样多维度的信息,目前还没有被很好的输入到机器里面。所以从技术上来讲,我觉得一个要做的事情是,怎么能够把世界知识以更好的方式表达出来,并且能够让机器去理解,去吸收这些知识,并且跟深度学习这样的技术融合在一起。因为深度学习主要解决的是模式识别的问题。我们以前不能够很好的表达这个信号,必须要人工去设计特征来表达,比如像语音、文字或者是图象的特征。那么深度学习要解决的问题,就是能够让机器去学习出这种特征,能够把这个信号映射到我们预先定义好的一个类上面,标记SemanticLabel,但是从Label到理解,我认为缺少“世界知识”这样一个基础。人是基于这个知识,然后再基于我们看到的东西,来进行推理和理解的。这一环目前仍然是缺失的,我觉得这是一个技术需要投资的地方。
新智元:您认为世界知识应该主要是由机器学习还是人工来实现呢?人工的规则在这里有没有用武之地呢?
王刚:我觉得两者都是要有的,因为机器学习现在的主要长处还是在于SupervisedLearning。像这种世界知识,我们很难给它提供这么多的Label,所以它需要可能一些UnsupervisedLearning、Semi-supervisedLearning的方式,同时也需要人工去参与。就像小孩一样,也需要别人把书编好让他们去阅读。编好书的过程就是一个知识传承的过程,是一个世界知识表达的过程,但现在机器是缺少这一块的。
新智元:我曾接触过这种语言知识库填写的工作。为语言设计一套符号体现,然后通过为词语(因为词语是有限的)填写符号,来表达特定的知识。比如“结婚”一词,它的符号就会展现出这个行为的“主语”是两个人,一般是一男一女,在具体的语境中,这个符号也展现出了对于主语的预期。现在较少听到类似的工作了。这样基于人工规则和符号系统的方法还会回来吗?
王刚:我想这样的任务或者需求肯定会回来的。因为现在学术界关注于刚才所讲的识别问题或者映射问题。像ImageNet这样的数据库比较容易建,把Label标好之后比较容易建好,并且大家用着也很方便,学术界就更有可能去做。
但在性能逐渐提升以后,并且工业界也有了更高智能的需求,那么要更智能的东西,肯定就需要知识表达,所以我觉得这样的任务或领域肯定会回来,但是它的方法是不是要经过迭代?我觉得是肯定的。因为现在的机器学习,我们是经过了多轮迭代的,所以它是螺旋型上升的。我认为知识表达也会是这样。
一个模型解决所有问题并不现实,各个领域的模型需要定制化
新智元:作为深度学习算法领域的专家,您之前的工作既涉及到视觉理解,也涉及到语义理解。现在谷歌提出了“一个模型解决所有问题”的方法,在一定程度上也引起了学界的争论。您觉得这样的方法现实吗?
王刚:我们来看看深度学习最开始提出来的Motivation是什么。它主要针对用人工方法很难去理解信号里面那么复杂的东西,你靠人工去设计这个特征,去表达这个信号,是不太靠谱的。所以我们需要端到端的这样一个深度学习网络,它能够从信号里面自己去发现特征,让任务做的更好。它的Motivation就是这样的,因此深度学习很大程度上削弱了先验知识和领域知识的重要性,它更多强调的是DataDriven。
所以我觉得OneModel的设计可能在各个任务上都能取得还不错的结果,至于说是不是能够解决所有的任务呢?我是不认同的。MachineLearning中有一个理论,是说一个GeneralModel肯定不能在每一个单独的领域上超过为这个领域自己设计的定制的Model,深度学习网络也是如此。比如说我们以前在做计算机视觉的不同任务时,就发现针对不同任务,如果考虑到先验知识,利用它去更好的设计网络结构,也就是让网络结构能够更适应这个任务的特点,那么它学出来的东西其实会更有效。更不要提语音、文本、图象,它们之间的差异化要大得多。因此我认为这种模型的设计还是要定制化的。
关于“理解”,将问题定义清楚,是学术研究的前提
新智元:我们会说,在自然语言理解领域,会发生从识别到理解的进化。在计算机视觉领域,会发生从识别到理解的变化吗?
王刚:你讲的理解是指什么?
新智元:比如说在一个视频中,能够迅速检测到目标,这是识别;判断几个检测目标的关系,这是理解。
王刚:这一块跟我讲的自然语言理解的难点还是有相通之处的,比如我们看到一幅画:一个公交车站,一个人坐在凳子上,其实人是能够想象出这个人是在等车,但如果你让计算机去“看”,他只能做识别。从识别到理解,也是缺了知识的表达,再加上推理。这两个部分现在是缺的,这是为什么没有真正的“理解”或者智能的原因。
这个问题会不会在学术界引起重视呢?我认为大家知道现在缺这样一个东西,但是会不会去做?我不太确定。因为这个东西确实很难定义。学术界做的东西首先还是要能够定义清楚的,我们大家去PK就行了。但是这样一个更广泛的任务,很难去定义。而工业界在做具体产品的时候,反而可能更有动力去做。我希望学术界有人能把这个问题定义好,引导这个潮流。
新智元:是的,这个问题我刚才描述的都不是太清楚,确实很难定义。
王刚:对的。而且计算机视觉的“理解”,有很多是跟任务相关的。比如说刚才我讲的等车,可能在我的眼睛里,这个人是在等车;而从警察的眼睛里看,可能要判断的是他是不是一个犯罪分子。只有我们先定义好任务是做什么,才能进行下一步研究。比如我定义这是一个家用机器人,让它去看这个世界,它的理解就会跟它的任务相关。所以我想,可能还是要在机器人这类东西兴起之后,这样的任务才会受到更广泛的重视。
新智元:您刚才说到了语言理解+视觉理解。在训练机器人的时候,是否也可以让语言的训练和视觉的训练同时进行呢?
王刚:我觉得正应该这么做,就像人学习的时候,也是通过多模态来进行学习。语言、图象还有包括触摸、气味等输入,都是一起进行的,这样学习会更高效。所以在学术界,我们也看到,今年有很多视觉和文字一起结合进行学习的文章,大家也非常关注这个问题,并且这样一个浪潮或者热点会持续下去。
新智元:这也是人工智能实验室特别关注的一个部分吗?
王刚:对技术前沿的东西,我们会持续关注。
感兴趣的方向:端上的人工智能、生物认知启发、量子计算
新智元:关于深度学习的发展,请您谈一下您在哪些方面感兴趣吧。
王刚:因为我现在是在人工智能实验室做端上的人工智能。我们希望打造像天猫精灵这样的人工智能新硬件。对于我来讲,我希望能够看到神经网络更轻、更快,在端上能够更好地跑起来。因为两三年前,大家做深度学习,都要在云上,基于大量的GPU来做,提供的也多是云上的人工智能产品。现在我们要让人工智能走到端。最近两三年有很多工作,都是致力于让神经网络的速度更快,从而有可能在端上顺畅进行。我还是希望端上能更快一些,毕竟端上的成本还是比较敏感。
另外从研究的角度讲,我个人比较期望的还有神经生物领域的一些进展,能够进一步启发计算神经网络。我们看历史上的神经网络,像最初的CNN,还有最近的Attention、Memory,其实都是受生物认知的启发。这两样东西是完全不一样的,一个是人脑,一个是电脑,但仍然很有启发性,这就好像说飞机和鸟儿都是有空气动力学的。所以生物认知上的一些东西还是可以挖掘的,应该能够进一步启发我们设计更高效的网络。这是第二点
另外一点,我也比较关注量子力学、量子计算机和神经网络的结合,和深度学习的结合。其实现在已经有一些相关的全新的探索发出来,我也希望看到今年能有更大的进展,因为这样我们训练深度学习就会更快,能够在最短的时间内训练完。
新智元:阿里人工智能实验室会有这几方面的研究吗?
王刚:在量子力学方面,还是需要一些设备,但是前面两项我们实验室都在研究,在研发。
新智元:终端和云端有一个协作的问题,如果想提高终端计算能力的话,阿里人工智能实验室会不会有自己的智能芯片的研发计划?
王刚:因为神经网络或者说模型的效果在慢慢收敛,所以我觉得智能芯片未来肯定会越来越流行。但是至于说我们是不是在研发,可能还不太方便披露,现在我们先保留一个悬念吧。
新智元:您以前提到,在南洋理工,你曾经建了一个标准的数据库,这个数据库学术界和工业界都在用。结合阿里的优势,现在实验室有类似的研究计划吗?
王刚:我们有数据库建设的计划,我觉得这个数据库建设肯定是非常有意义的。在阿里,我也在考虑,是不是在一些恰当的问题上,也做一些这样的数据库建设。我们在建数据库的时候,肯定都是只用一些外界都能拿到的数据来建这样一个数据库。
消费级AI产品,既是个人兴趣,也是实验室的研发方向
新智元:您觉得来到阿里人工智能实验室以后,状态跟之前在大学里面有什么不一样?
王刚:我觉得还是挺兴奋的,因为在学校期间,其实我也非常喜欢跟商业化相关的事情。我觉得技术最终还是要转化成产品才更有意义,因为每个人的兴趣爱好不一样,萝卜青菜各有所爱。我比较喜欢落地或者商业化这方面的东西。而在学校里面有一个问题,就是离市场太远了,也不知道大家需要什么,也没有产品等各方面的相关人士去配合工作。所以到阿里来之后,发现离消费者这么近,既有天猫精灵X1这样的消费级产品,也有优秀的硬件、产品方面的同事,所以觉得非常兴奋,非常开心,很充实。
新智元:那么工作节奏上呢?
王刚:工作节奏还是要比学校快一些,因为在学校,尤其是拿到终身教职之后,相对而言强度不是那么大,在公司强度会高一些,因为我们要发产品,产品要打磨,要用很多心思,不过觉得很充实。
新智元:您在这个岗位上有什么新的梦想?
王刚:我的梦想跟整个实验室的梦想差不多,都是希望能用人工智能去Enable这些硬件,让具有人工智能能力的产品走进千家万户,能够为大众和消费者都使用,给他们的生活带来便利,这也是我个人的梦想,希望能够看到这一天由我们阿里人工智能实验室来实现。
新智元:是不是有这样一种情况,一些学术界可能已经不会太关注的问题,但是在工业界仍然还是难点。比如OCR,学术界已经不再做它了。但实际上在很多场景下仍是个难题。您是否会有类似的感觉?
王刚:是有这样问题的,学术界和工业界的任务和使命不太一样。学术界更关注的是探索知识的前沿,创造新的知识。它要解决的问题,应该说是在5年以后会发生的事情,相当于是引领,需要去探索。它具有风险性,是政府投资的,它要探索5年之后哪一个技术方向是可能的,或者哪一个技术方向不可能,它有这样的任务。工业界界实际上应该在学术界之后,在学术界探索出某种技术,比如OCR,是可能的。这个东西有可能实现,工业界就去实现落地,在落地和方向之间,肯定有是Gap的。比如说学术界最开始做这个题目时,可能做了一个比较Toy的DataSet,他可能没有考虑到工业界需要面临的非常复杂的情况。因为它是学者建立的,比如说做OCR的研究,他可能会找到一本书,感觉印刷不是特别好,就拿过来扫描一下,作为数据库。但是在工业界应用的时候,我们就发现会有光照、遮挡等等千奇百怪的情况,这些学者在办公室里面是考虑不到的。所以我们在落地的时候不可避免的会遇到这样的困难,需要花很多时间把算法进一步优化。大的方向是确定的,但在这个基础上还要进行很多的优化,让它落地。
新智元:阿里人工智能实验室定位于消费级AI产品的研发。这一点和您选择加入阿里有关系吗?
王刚:对,我觉得关系挺大的。我刚才讲过,以前的人工智能产品主要在云上实现,这一块已经发展比较长的时间了。不管是阿里云还是亚马逊云,上面都有很多人工智能的解决方案,比如人脸识别、语言识别方面的。但是在端上,还是一个相对空白的市场,并且端上可能会更难一些,因为这个端可以放在不同的环境里面,不同的场景里面,并且还要考虑到计算等各方面的制约,所以说挑战也会更大一些。那么做C端的产品,其实也更性感一些,所以我觉得这是非常好的、非常有意思的一个机会,也跟我的兴趣非常一致。
新智元:消费级AI产品,在整个阿里人工智能战略里面的定位是怎样的?相关的技术是否会开放呢?
王刚:打造下一代的人机交互产品是阿里AI战略里非常重要的部分。我们的天猫精灵让消费者觉得用语音交互居然可以做这么多的事情,很有意思。我们也希望有更多用户体验不同的产品形态,来享受这个新技。所以同时我们也是开放的,天猫精灵里面使用了AliGenie这个第一代中文人机交互系统,它能够精确的理解用户的语言,智能的对话,个性化提供用户需要的服务。我们AILabs把AliGenie开放给开发者、硬件厂商所使用。我们希望我们的AliGenie能去Enable所有的硬件,我们希望让更多具有人工智能能力的产品,能够快速的落地,被消费者所使用。
阿里的AI人才计划
新智元:阿里人工智能实验室目前最需要哪方面的人才?
王刚:阿里巴巴目前正在向全球广泛招募人工智能方面的人才,从2017年夏季开始,阿里将推出一项AI人才的校招计划,主要面向博士生群体,将涉及到计算机视觉、机器学习、NLP、图形图像、语音交互等技术方向。
新智元:在人工智能技术方面,阿里的人才计划是怎样的?
王刚:今年3月,阿里巴巴正式启动代号“NASA”的计划,面向未来20年组建强大的独立研发部门,建立新的机制体制,覆盖人工智能、机器学习、芯片、IoT、操作系统、生物识别这些核心技术领域。
在人工智能领域,阿里很多业务都早已实现应用,比如以图搜图、活体检测、阿里小蜜(语音处理),ET医疗大脑、ET工业大脑、无人商店、天猫精灵等均是和人工智能紧密相关的应用场景,且这些应用的诸多技术均来自于iDST(InstituteofDataScience&Technologies)和阿里人工智能实验室。
今天的阿里巴巴,处在一个技术创新的临界点,从工程技术到核心科技的临界点。阿里拥有十分复杂的业务场景,金融支付、电子商务、物流、新制造、新零售等,必然会存在世界级技术挑战,而若解决这些世界级难题,必须依靠世界级优秀人才。
新智元:王刚博士,感谢您接受新智元的专访。
王刚:谢谢新智元。
来源:阿里巴巴招聘原文链接阿里2018届校园招聘正在进行中!查看详情,简历投递,请进入官网:campus.alibaba.com