梅宏院士:人工智能的快速发展离不开代码开源和数据开放
中国科学院院士梅宏在2021世界人工智能大会开幕式上发言。澎湃新闻记者赵昀图
2021世界人工智能大会于7月8日在上海开幕。开幕式上,中国科学院院士梅宏在发言中提出,人工智能的快速发展离不开代码开源和数据开放,高质量的开放数据促进了深度学习算法突飞猛进,深度学习框架极大提升了算法开发的效率,两者相辅相成。“今天人工智能的辉煌离不开开放,离不开开源。”
梅宏说道,开放创新也是人工智能产业竞争力提升非常重要的手段,现在的科技巨头纷纷积极拥抱开源、营造生态,加大了资金和人力投入,甚至将其闭源产品转为开源项目,加快对外开放其专有的机器学习框架。“开源开放有利于集结更多用户资源打造自身生态,同时开放性应用通过快速获取大量数据资源,这些数据反过来又可以进一步优化模型算法,实现重要的反哺,成为企业不可或缺、不可替代的战略性资源。”
梅宏表示,我国将开放创新正式列入“十四五”规划和2035年远景目标,在数字化发展、建设数字中国大背景下,涉及到开源社区、开源知识产权相关体系、开源软件代码等等的表述都出现在正式文件里。
他建议,首先要高度重视开源创新,通过这种方式有助于创建自主可控的信息技术新体系,也有助于促进我国数字化转型和数字经济的发展。同时要真正理解开源,我们需要大力弘扬开源精神,把握开源的本质:开放、共享、协同、生态。“共享共治,奉献为先,这是开源精神的本质。”再者,要理性实施开源策略,鼓励企业、个体、单位积极融入国际开源社区,站在巨人的肩膀上学习发展,靠贡献逐步增加话语权。
梅宏认为,我国还需注意蓄势引领,建议从中文开源社区入手,因为它更好地符合工程师习惯,针对国家发展重大战略领域建立若干开源社区,“并在这个基础上逐步成长壮大,随着国力增强,我相信我们能够在某些领域实现引领。”
要实现开源还有一个很重要的因素就是人才储备,现在高等教育体系在开源上有所缺失。他提倡注重布局开源教育,加强对于开源的文化教育、意识教育、技能教育,将开源技术和开源实践融入到现有的课程体系、教育体系中。
人工智能的发展离不开大数据
人工智能是中国可能引领全球的最大机遇在过去15年中,科技飞速发展所带来的改变已经渗透到我们每个人的生活中。随着全球互联网的开放以及经济的发展,高科技产品应用变得尤为广泛,甚至我们的爷爷奶奶和孩子们每天使用的都是智能产品。
在我们现在的日常生活中,原先只在科幻电影里出现过的东西,如今正逐渐走入现实。机器通过深度学习,软件和程序能变得更聪明;硬件和机械通过相互交流,可以实现自我改进。30多年前,人工智能(ArTIficialIntelligence,AI)还是我在大学实验室鼓捣的学术课题;而如今,在不知不觉中人工智能已经融入现实世界,潜移默化地改变着我们商业模式和日常生活。
人工智能到底如何在影响我们的生活?试着回忆一下你上一次在电商网站上,是否经推荐点击了酷炫新产品?上一次在出入境时,是否经人脸识别摄像头辨认你的身份?在客户投诉中心发表你的抱怨之后立刻收到企业的客服聊天或邮件,实际上是客服机器人在和你对话。在上述这些熟悉的场景中,人工智能已经开始在我们日常生活中、无声无息的取代了一些你甚至还没察觉到的角色。
说起国内的人工智能公司,关注人脸识别这个领域的人首先想到的应该都是商汤科技。在去年7月份的时候,商汤科技宣布B轮融资4.1亿美元,估值超过15亿美元,这是截至目前为止全球人工智能市场单轮最高融资,这家创业公司在两年内跻身独角兽阵营。据商汤科技联合创始人、副总裁徐冰在光大控股举办的“投资年会2017”上透露,目前已启动C轮融资,新一轮融资计划将于今年12月完成。
商汤科技,作为国内人工智能领域的巨头公司,其开拓的AI技术领域都主要集中在智慧金融、安防、手机智能等领域;而在视频电商领域国内另一家人工智能公司Video++则将AI技术应用到了视频领域,通过为流量平台提供视频AI、视频电商、视频互娱广告等系统应用。
“人工智能既要技术也离不开大数据,做一个比喻,人工智能技术是一把刀,数据就是磨刀石。对于初创企业来说,他们缺乏大量且及时更新的数据,能否获得成功,主要就是看谁的磨刀石更好。”而Video++就是以视觉识别和大数据为基础,来实现广告自动投放和电商自动投放,打破传统视频商业模式。
“互联网视频”在未来的三年将进化为“视频互联网”:在视频中将形成一个互联网服务入口。视频已成为流量入口,观众在感兴趣时,可以主动地在视频中进行互动娱乐、购买商品、视频游戏、搜索精准画面。根据eMarketer公开资料显示,截至2020年,互联网上平均92%的流量都将来自于视频,当视频拥有这么大流量的时候,视频互联网内部的生态操作系统便显得非常重要,Video++现在在做的事情就是解决这一痛点。
业内人士认为,新型智能的原生互动视频广告将逐渐替代贴片广告的市场,压缩广告时长,增加广告效率,成为视频营销新挑战。视频人工智能技术将运用视觉识别把视频内容碎片化、片段化,挖掘出来的场景不仅可以投放广告,还可以与电商、游戏进行链接。
当您观看《爸爸去哪儿5》的时候,你会发现每当出现萌娃洗手的画面,就会出现舒肤佳的互动广告,点开之后就会看到相关的促销信息。还有在《明星大侦探》及悬疑类剧集中,每当情节陷入胶着、迷雾重重,画面上就会出现某品牌请你猜猜谁是凶手的互动投票,猜中的人会得到小礼物或者解锁隐藏剧情。这些都是Video++在视频里做的互动娱乐,Video++通过视频AI技术把品牌广告与内容的结合更紧密。
所以,未来的视频用户不仅会在观看视频的过程中看到精准的满足自己需求的广告推送,还可以直接在视频内完成购买,可见AI技术的应用领域将更加贴近生活。
人工智能的发展离不开数据的支撑 更离不开AI数据做“燃料”
上个世纪五十年代,麦卡锡当时为达特茅斯会议命名了一个在那时看起来别出心裁的名字:人工智能夏季研讨会(SummerResearchProjectonArtificialIntelligence),由此“人工智能(ArtificialIntelligence)”这个概念开始走向世界。
历经了半个多世纪的AI一直都不温不火,但近几年AI突然爆发,在人工智能大量边缘设备落地的同时,将其推上一个更为兴盛的阶段:围棋人工智能程序AlphaGo横扫棋坛,传统与文化相结合独具一格的“AI茶馆”,甚至还有腾讯去年在“AI+医疗”领域打造的“救命AI”——腾讯AI医疗产品的聚合。
AI迅速爆发的背后究竟靠的是什么?现下众多巨头企业、初创公司等纷纷入局人工智能领域,都在尝试寻找全新突破口。业内曾流传着这样一句话:得“数据”者,得“人工智能”,而能将“人工智能”玩的转的,便能称的上是撬动世界第四次工业革命的先锋了。
偏偏是“数据”扼住了AI命运的咽喉?
从发展意义来看,人工智能(AI)在不断的进步,并且随着这种进步势必会改变一大批产业的形态。此外,从另一方面看,人工智能技术的背后有三大支柱:算法、算力和数据,这三者相辅相成、相互制约,但其中数据是核心要义,只要有了大量优质精准的数据,再加上算法实现高效的机器运算、算力的推动,AI才能越走越远。
“没有好的数据,人工智能将没有未来”已经成为业界共识。
值得一提的是,这里有两个重要的点需要区分:一个是数据,另一个是好的数据:“高质、精准、安全”。
云测数据贾宇航表示:“首先数据是人工智能底层逻辑中不可或缺的支撑要素,因为人工智能的本质就像人类要不断的通过训练来获取技能一样,AI的根基就是训练,需要经过大量数据进行训练,神经网络才能总结出规律,进而熟能生巧的应用到新样本上”。
也就是说,数据是最基本的燃料,没有燃料,AI这艘火箭是不可能直冲云霄,而商业落地更是遥不可及的梦。从自动驾驶到AI聊天、服务机器人,从人脸识别到各类AI边缘落地化产品,数据是真正的“幕后英雄”,无“数据”不“AI”。
其次,要想经算法训练后获得的模型更加智能,仅“数据”远远不够的,这背后更多的是对数据的“高质、精准、安全”的要求。
例如在训练的过程中,高质精准的数据扮演着“教科书”级别的重要角色。如果仅需要识别勺子,但在训练数据中勺子总和碗、筷子一起出现,那么AI系统可能会误入歧途,进入一种“瞎猜”的状态而产生混乱和误差,结果很可能会将碗或筷子识别成勺子。所以对于人工智能来说,虽然大量的训练数据固然很重要,但更重要的是数据的“高质精准”。
再从另一方面看“高质精准的数据”对算法模型来讲究竟有多重要?
现在人工智能处在产业落地前夕,可以说AI产品的精准数据训练直接影响落地产品的良品率;举个不恰当的例子,如果自动驾驶系统的训练数据的缺乏或不精准,则很可能在行驶过程中由于未正确识别物体数据直接导致人身伤亡,这些后果都是不堪设想的。
此外,数据标注的价值不仅体现在物体识别上。当下人工智能整个行业都在往多模态的方向发展,比如以智能驾驶为例,基于传统的车外环境感知系统一般都采用摄像头做设计,以至于存在着测距效果差等缺陷,现在引入激光雷达后,在数据的提升上对应是既有图像又有3D点云的三维数据的耦合。
随着人工智能逐渐从学术走向产品化、落地化、市场化,企业对于场景数据的要求也越来越多维,所以引入更多维度的数据去完善AI产品落地前的模型,也是当下行业发展的趋势。
直击行业痛点,这样的“数据一把手”才更性感
传统的数据清洗标注工作呈现出一种“数据粗放型处理”的状况,从移动互联中大量获取公开、通用的数据,通过雇佣廉价的劳动力完成数据的清晰标注工作,“道路、天空、大树”大致标注粗糙勾选后,便全部投入应用到神经网络中。
但随着人工智能发展至商业落地前夕,算法模型对高质量、高精度数据的需求极速提升,以往的通用数据集越来越不能满足AI企业的数据需要,人工智能落地越来越专注于小场景和专业领域。人工智能不再是漂浮在“空中的楼阁”,基于AI实际应用场景的数据服务,已成为人工智能落地的核心地基。
贾宇航表示:“在这个行业中有一个‘garbageingarbageout’的理论,即如果标注完的数据精度达不到标准,那么训练出来的算法也是不精准的。”如今一味粗放的处理模式既不能满足逐渐商用的AI企业的数据需求,甚至还将影响技术本身的发展。
面对这样的产业趋势,云测数据作为行业的典型代表,直击行业痛点:将“精准高质”“独立安全”作为业务发展的核心,并随着AI企业数据需求不断的演进。
有刚性需求便会有实时供给,有痛点问题便就有解决方案。云测数据基于其自建的数据标注基地和场景实验室,根据AI企业数据需求,进行特定动作、表情和表情的捕捉,将精准的数据投入到流程化规范生产的数据标注环节中,最终输出精准高质的数据。解决特定场景化下的数据缺失、质量良莠不齐、安全性等行业问题,以帮助AI企业打造以高精度数据为核心的行业壁垒。
场景实验室是云测数据布局高度定制化、多模态的AI数据服务的重要组成部分,以AI企业的具体算法模型的特定需求来定制化搭建采集场景,致力于覆盖尽可能多的实际场景及边际场景,从数据产生的源头把控数据质量。
自建标注基地是云测数据保证数据精准高质的又一强力保证。基地内的全职标注人员有利于协同化管理和快速响应企业数据需求。同时云测数据还基于不同场景对标注人员进行领域内的细分,接受固定领域的知识培训。得到高效的行业知识输入,在理解企业客户的需求上就能做到准确无误的输出。
所以,AI的背后是数据,行业的幕后是云测数据——这样的“行业数据一把手”才着实性感。
数据安全成核心,行业规范亟需建立
目前云测数据基于自建的数据场景实验室和数据标注基地,服务领域已涉及智能驾驶、智能家居、智慧城市、智慧金融、新零售等领域,实时为领域内各个AI企业提供定制化的数据采集、数据标注服务,全方位支持文本、语音、图像、视频等各类型数据的处理。
更重要的一条前置底线是,云测数据除了提供优质数据,更是把数据隐私安全做到了极致。从防火墙的设置、到内部信息系统的管护,乃至标准化的流程作业体系等,将一整套的安全防护和信息保护的机制,应用在数据标注生产的各环节。
贾宇航告诉猎云网:“对于一个企业来讲,拥有了数据便就拥有了核心竞争力,数据安全一直都是我们极其重视的一点。首先我们要做到的,是数据绝不复用,第二就是保证数据隐私性。与所有数据采集的用户都签订数据授权协议,确保AI企业用于训练的数据合法合规。”
Testin云测CMO张鹏飞也强调“从整体看来,AI数据行业关于安全、隐私等方面并没有统一的标准和强调重视。但从我们长远角度出发,一直在隐私和安全防护角度下大力气服务行业、树立数据质量标杆,只有以这种负责的态度来服务客户,我们的行业才能‘良币驱除劣币’,真正让人工智能成为新一轮技术革命,改变整个社会和人类进程”。
人工智能的发展离不开数据的支撑,更离不开AI数据做“燃料”。如果非要用一句话来定义这个时代的“人工智能”和“数据”的关系,可以说是:数据是人工智能的核心要义,而“高质精准、独立安全”的数据,则是撬动世界第四次工业革命(人工智能浪潮)的关键所在。