人工智能让新闻主播“分身”有术
来源:中国知识产权报
日前,一年一度的“3・15”维权晚会如期举行,今年中央电视台请来了一位帮手――以主持人姚雪松为原型的AI(人工智能)合成主播“姚小松”,播报预告“3・15”晚会相关消息。而在刚刚闭幕的全国两会期间,新华社继去年推出以邱浩为原型的AI合成主播后,再次推出以屈萌为原型的AI合成主播“新小萌”,向世界播报我国两会盛况,引来众多外媒关注甚至“惊叹”。
这些AI合成主播运用搜狗分身技术,能够在提供文字的情况下自主播报,与真人看起来几乎无异。作为融媒体发展的积极探索,人工智能如何让新闻主播“分身”有术,是否真的在淘汰传统新闻主播的路上又前进了一步?
主播“分身”实现24小时播报
在今年两会新闻播报中,观众可以看到“新小萌”已从过去AI合成主播“坐着”播新闻,升级为具有肢体动作的“站着”播报,其长相、声音、表情和主持人屈萌几乎达到了以假乱真的程度。这正是搜狗分身技术在传媒业的具体应用。
“搜狗分身技术可以实现机器逼真地模拟人类说话时的声音、嘴唇动作、表情以及肢体语言,创造出人类的AI分身,从而代替人类从事一些低脑力劳动,将人类从繁琐单一的工作中解放出来。”搜狗语音技术交互中心负责人陈伟在接受中国知识产权报记者采访时介绍,运用搜狗分身技术,通过录入真人主播的手势、表情、语音,只需几个小时的视频资料就能训练出主播的虚拟“分身”。当“分身”制作完成后,只需输入文本,合成主播就能声情并茂地播送新闻,而且不会出现真人播报时容易出现的口误等问题。
对于极重时效的传媒业,AI合成主播的意义显而易见。陈伟认为,一方面,AI合成主播大大缩短新闻制作流程,无论何种场景都能快速上岗,还能做到24小时不间断播报,保证了新闻时效性;另一方面,该技术将主播从技术含量较低的播报中抽身出来,腾出更多的时间和精力录制访谈类、深度报道类节目。
截至目前,新华社的AI合成主播已生产几千条新闻报道,参与了包括第五届世界互联网大会、首届中国国际进口博览会、2019春运、春节、两会等若干重要新闻的报道。
“分身”专利提升智能化水平
虽然搜狗最早于去年7月对外公布“分身”技术,但陈伟介绍,AI合成主播并不是花几个月就突击出来的,而是搜狗从2012年就开始投入语音识别相关研究以来,融合了多项前沿技术的集大成者。
具体来说,AI合成主播在模型训练方面,主要涉及人脸关键点检测、人脸特征提取、人脸重构、唇语识别、情感迁移、深度学习等多项技术,还需要结合语音、图像等多模态信息进行联合建模,生成与真人无异的AI分身模型,而在提供文本进行输出时,又会涉及语音合成、唇形合成、表情合成等技术。其中,语音合成是通过机械的、电子的方法产生人造语音的技术,搜狗采用了目前最先进的端到端基于神经声码器的技术,可以让发音的真实度大大提升。
出门问问信息技术有限公司知识产权高级经理胡延对搜狗的人工智能技术进行了初步检索,从检索结果来看,2015年至2018年搜狗在语音和视觉处理等人工智能关键技术方面的专利申请量呈现显著增长趋势,其中大部分是在国内进行专利布局,也有一少部分通过《专利合作条约》(PCT)途径提交国际专利申请;从专利类型来看,发明专利申请占比达到了99.5%;从分类号来看,视频图像处理、自然语言处理、自然语言合成、语音处理及合成等领域的专利申请数量基本持平,可见搜狗对这些关键技术的研究投入比较均衡;涉及“AI合成主播”的关键技术,搜狗也提交了相关专利申请,不仅包括面部、唇形合成等技术,还对皮肤如何进行处理等技术细节也进行了专利布局。
“对我们而言,分身技术的发展还只是起点,未来还有很多需要突破的难点。但我们一直在通过提交专利申请,进行相关布局。”陈伟表示。
AI技术助力融媒体发展
在AI合成主播惊艳亮相之初,有人觉得,表情僵硬,感情欠缺,也有人惊呼,新闻主播将面临失业危机。
实际上,在“人负责脑力思考,机器负责运行和计算”的现阶段,AI合成主播还有很大的局限性。搜狗CEO王小川曾表示,AI技术分为感知技术和认知技术。在感知声音、图像等技术方向上,机器基本有机会可以做到跟人一样好。但是在认知技术方向上,机器背后的推理、知识、思考,以语言为核心的逻辑性内容,机器的处理能力则是有限的。
在胡延看来,目前AI合成主播还只是根据输入的文本信息进行播报,表情不够丰富,也缺乏互动能力,结合语境的能力有限,只能在相对简单的场景下应用,比如普通的播音场景,而在对语言和情感要求高的场景下,目前新闻主播还是无法取代的。
对于陈伟而言,眼下他主要解决的还是逼真度的问题。“AI合成主播无法避免与真人对比。随着观众的期望越来越高,就会关注主播的微表情,比如开心时有些眉毛上扬或者微抖动以及语音合成在情感和情绪上的处理等,这些都是需要攻克的问题。”当然,他希望未来“能够给用户创造出具有自然交互与知识计算能力的分身模型和分身能力”。
值得关注的是,在媒体加速转型发展的当下,借力AI已成大势所趋。不少新闻媒体单位积极探索人工智能与新闻场景的深度融合。胡延认为,AI技术在数据采集、处理等方面具有优势,可极大提升传媒业的效率,提供更丰富的新闻产品形态,也有助于媒体精准营销。新华社相关负责人表示,与搜狗合作推出AI合成主播,是新华社运用人工智能技术,推动媒体融合发展的重要举措。双方将结合自身业务发展需要,以AI合成主播项目为核心,在人工智能应用于新闻采编领域开展全方位合作。(刘仁)
(责编:王小艳、王珩)分享让更多人看到
人工智能新闻主播
近日,新华社联合科技公司搜狗开发的人工智能新闻主播首次在世界互联网大会上亮相。这不仅是人工智能合成领域的技术创新和突破,更是开创了新闻领域实时音、视频与人工智能真人形象合成的先河。下面,请跟双语君一起来看看吧!
Anartificialintelligencenewsanchor,developedbyXinhuaNewsAgencyandtechfirmSogou,madeitsdebutattheWorldInternetConferenceinWuzhen,Zhejiangprovince.
在浙江乌镇举办的世界互联网大会上,新华社联合科技公司搜狗开发的人工智能新闻主播首次亮相。
传播中的离身与具身:人工智能新闻主播的认知交互
计算机技术的反思。有些专家认为,如果计算机集成电路中包含的基本元件及其连接规模,能够大大超过大脑的神经元件和连接规模,计算机就有望如同大脑那样自涌现出高级心智。但是密尔本(G.J.Milburn)也曾指出,无论量子计算机的规模和速度多快,也仍然是以“丘奇—图灵”论题为理论基础,仍然是一种基于量子图灵机的计算机。因而,期望以量子计算机来模拟人类智能并且自涌现出高级心智,还是没有脱离“认知可计算主义”研究纲领(刘晓力,2002)。即使计算机程序能够产生自涌现的特性,以切廷(G.Chitin)的算法信息论来看,计算机的复杂性本身仍有相当大限度,希冀计算机的复杂性实现人类心智的复杂性尚有相当距离,而复杂性之复杂性本身又是另一大难题(刘晓力,2003)。
作为认知科学与人工智能在新闻播报领域的实践应用之一,人工智能新闻主播本质上难以脱离也基本遵循着离身认知、“计算主义”这一认知进路。人工智能新闻主播尝试离开真人主播的身体,试图通过不断更迭的计算机技术及算法程序来构建形象、模拟行为、复制功能等。
三
具身认知的兴起、源流与主张
具身认知(embodiedcognition)被视为“第二代认知科学”研究的新进路。“第二代认知科学”的标志性倡导为:身体是心智的基础,身体在人类认知及相关社会活动中具有首要作用。
梅洛-庞蒂在《知觉现象学》中则区分和界定“客观身体”与“作为世界中介的身体”,成为具身认知最直接的思想来源之一(李其维,2008)。梅洛-庞蒂(1945/2001:538-540)指出:身体最为直接地“在世界中存在”,“身体本身在世界中,就像心脏在肌体中”。“不通过身体的经验,就不可能理解物体的统一性”,“物体的综合是通过身体本身的综合实现的”,而对于外部事物的知觉“直接就是我的身体的某种知觉”。
德雷福斯(HubertL.Dreyfus)(1972:177-178)认为:“当我们栖居于世界中时,与我们同在并且根植于它们指称情境的有意义对象,不是储存在我们的心中或脑中的世界模型;它们就是世界本身。”这种思想即是海德格尔的“在世界中存在”思想,“在世界中存在”也是最基本的智能活动,亦是启发斯坦福大学计算机科学系教授威诺格拉德等人工智能专家的海德格尔式人工智能(HeideggerianAI)。德雷福斯认为:认知主义最大的缺点之一就是离身认知(disembodiedcognition)。相关哲学论据使德雷福斯(1972:xi-xii)看到:“数字计算机由于无身而导致的局限性,比由于无心而导致的局限性更大。”德雷福斯对优化人工智能的第一个建议就是:要重视身体在智能行为中的作用。德雷福斯的人工智能身体观,源于梅洛-庞蒂在知觉现象学中的核心概念:身体。梅洛-庞蒂(2012:431)还将存在落实到了身体上,以克服海德格尔“在世界中存在”的形式化缺点:
如果主体在情境中,甚至就是情境的一种可能性,这是因为只有当主体实际上就是身体,并通过这个身体进入世界中时,才能实现其自我性。在我反思身体的本质时,如果我发现身体与世界的本质相关联,这是因为我作为主体性的存在,就等同于我作为身体的存在以及世界的存在。
德雷福斯对海德格尔的存在主义和梅洛-庞蒂的身体现象学的强调,与认知科学中的具身认知范式关系紧密。人工智能研究重镇麻省理工学院的著名机器人学教授罗德尼·布鲁克斯(RodneyBrooks)(1999:167)提出:
智能系统的具身(embodiment)是至关重要的,而这有两个原因。首先,只有具身的智能体,才可成为能够完全应付真实世界的智能体。其次,任何内在符号系统或其他系统,都只有通过物理根基(physicalgrounding),才能得到立足点并使系统内部运行的进程具有意义。
四
人工智能新闻主播的认知交互:
离身认知、具身认知及持续创新
人工智能新闻主播诞生之前,曾经出现一波虚拟主持人热潮,开始萌动人工智能在新闻播报领域中的离身认知、具身认知及交互应用。互联网发展初期,能够播报新闻的虚拟主持人“安娜诺娃”于2000年4月由英国报业联合会新媒体公司推出。其后在一些国家相继出现了一系列虚拟主持人,如中国“Gogirl”“言东方”“伊妹儿”和“江灵儿”,美国的“Vivian”,韩国的“Lily”等。虚拟主持人的离身认知探索主要体现在:试图离开真人主持人身体去传播信息;基本依靠真人线性配音,尚未实现如今可以离身重组的智能语音播报,也未实现如今可以离身重组的智能视音频播报。
人工智能新闻主播进一步探索人工智能在新闻播报中的离身认知、具身认知及交互应用。2018年11月,新华社发布世界首位以真人男主播为原型的人工智能“AI合成主播”并在随后命名为“新小浩”。2019年3月,新华社采用真人女主播为原型的人工智能新闻主播“新小萌”上线。而在此之前,2018年4月日本放送协会(NHK)推出人工智能新闻主播“Yomiko”,2017年6月英国独立电视(ITV)《早安英国》中推出机器人主播“Sophia”。英国广播公司(BBC)广播四台《今日》节目甚至考虑用机器人主播模仿真人主播的风格并主持采访环节,采访内容是人工智能的未来。人工智能新闻主播纷至沓来,其离身认知主要体现在:尝试离开真人主播身体的自然线性播报,通过提取真人原型在新闻播报中的语音、唇形、表情、动作和形象等,运用智能合成技术和深度学习等联合建模数据库,将所输入的中英文文本非线性自动生成相应内容的智能音视频,试图展现与真人主播类似的新闻播报、信息传播效果。
需要特别关注的是人工智能新闻主播的具身认知及相关交互,可能成为人工智能新闻主播持续创新的关键要素。如前所述,具身认知被视为“第二代认知科学”研究的新进路,认知科学的具身转向及物质基础同时也呼应着整个社会科学中的物质性转向(Apperley&Jayemane,2012)。具身性、情境认知、认知发展和动力系统成为“第二代认知科学”的四个典型主张,由此奠定了“第二代认知科学”的基础共识(李恒威,黄华新,2006)。四者当中,具身性(embodiment)被看作“第二代认知科学”最重要的核心概念,情境认知、认知发展和动力系统也都与之密切相关。
其一,人工智能新闻主播的具身性(embodiment)。“回到生物学中去找约束”(李恒威,黄华新,2006),意指大脑活动根本上不同于计算机活动,人的心智来源于温软的肉身而非冷硬的机器,天然自会受到身体、生理、大脑、神经等约束。综合考量传播效果比如情感上的亲和力、可信度、人格化和权威性,采用真人主播身体屏幕形象的智能播报,或许优于虚拟主持人时期的动画形象,以及当前智能主播时代的动画形象或者机器人身体屏幕形象——英国独立电视(ITV)人工智能新闻主播“Sophia”,其机器人身体及屏幕形象曾被观众认为有“恐怖”感,其后也折射人工智能与人类智慧未来如何共处。另外,中国、日本和英国的人工智能新闻主播都有各自命名,由此带来的人格化、身份认知或许能稍许弥合人工智能的受众认知分歧、社会认知差异。需要注意的是,是否采用真人形象其实无关乎具身认知,比如平衡车只是行驶设备并无人体形象,但是它通过感应人体重心移动来驱动、变速和转向,还能通过限速来培养初学者,即为具身认知、具身性和人机交互的某种应用。具身认知与具身性的蕴含和应用广阔,人工智能新闻播报的具身性及其应用优化亦有更多期待、更多想象力。另外,人工智能新闻主播的具身性还体现在围绕身体交互展开的情境认知、认知发展与动力系统等。
其二,人工智能新闻主播的情境认知(situatedcognition)。具身心智实现于情境的约束中,认知必须互动呼应于情境的状况和变化,而不是对于情境的单向投射(李恒威,黄华新,2006)。例如新华社人工智能“AI合成主播”,文本“一度创作”和新闻播报“二度创作”有很大不同,文本“一度创作”中没有直说、不便直说的言外之义、新闻蕴涵,有经验、有思想的真人主播在新闻播报的“二度创作”中可以采用停连、重音、语气、节奏、情景再现、内在语和对象感等方法呈现出来。不同真人主播对新闻蕴涵的理解判断不同,播报中的“二度创作”也不同。微妙之处正是新闻播报的准确性、个性化、创造性之处,也是不同真人主播在业务水平上的重要区分标准之一。同一文本不同真人主播的新闻播报艺术性尚且如此,不同的栏目、平台、地域、受众、时机呢?因此,尽管新华社人工智能“AI合成主播”诞生即突破,迈出了关键一步,但是在不同情境中的认知互动有待加强。情境认知在很大程度上决定着新闻播报更高级的艺术性、创造性。
其三,人工智能新闻主播的认知发展(cognitivedevelopment):一个直观的事实是,认知不可能完全由遗传来决定,人类的认知能力是在复杂情境中起源和发展的。如果说具身人工智能的目标不包括模拟和解密人类智慧,那么目前它是相当成功的;如果考虑到它不仅试图模拟人类的部分智慧,还希望发现人类智慧或生命的真正奥秘,那么现有的具身人工智能仍然相当初级(徐献军,2017)。比如,上文讨论到当前人工智能新闻主播虽有文本也难以进行播音“二度创作”。
其四,人工智能新闻主播的动力系统(dynamicsystem)。认知是一个系统的动力涌现,同时涉及大脑、身体和世界之间相互复杂作用,而不仅仅是大脑中的一个孤立事件。具身心智的认知活动同时和情境相耦合,动力系统即是探索此类耦合情况下认知发展进化的动力机制。比如,目前具身人工智能体通过“感觉-运动”的反馈循环来获取的意义,仍是外赋的,而非内生的(徐献军,2017)。约拿斯在其控制论批判中指出:反馈循环不是有机体有目的行为的充分条件。自动搜索目标的鱼雷和觅食的兔子二者之间区别在于鱼雷的反馈循环运行不运行皆可,而兔子的反馈循环必须始终运行,因为这就是它的存在方式。换言之,鱼雷反馈循环的开闭运行取决于外界使用者,而兔子则取决于自身(生存压力下必须觅食);兔子觅食行为的意义是自生的,而鱼雷搜索目标的行为意义是外赋的(Froesea&Ziemkeb,2009:473)。当前具身机器人仍然不能在世界中获得自生的意义。人工智能新闻主播的自发性、主体性与能动性也有限,目前还无法实现真正自主的采写、编评、播报,而是由其后的人类团队主导完成。无论是智能语音合成技术,还是智能视音频合成技术,都远远未能达到自组织、自适应、自涌现的高级心智,与人类智慧程度的自主采写、编评、播报相去甚远。或许,随着认知科学与人工智能的进一步发展,包括离身认知、具身认知及其交互应用的进一步突破,人工智能新闻主播的自发性、主体性与能动性会而逐渐产生?人工智能新闻主播的自发性、主体性与能动性,这既是科学问题,甚至是带有一定科学幻想色彩的问题,同时也是法律规制、伦理哲学问题。
五
人工智能新闻主播的优化可能:
离身认知、具身认知与高阶交互
人工智能新闻主播的相关问题难以穷尽,正如当前的认知科学与人工智能、离身认知与具身认知、“计算主义”与“新计算主义”甚而整个科学也难以穷尽奇妙精巧、广阔深邃的人类世界本身。然而,问题求解、好奇心亦是人类不断认知自身、不断向前发展的原动力。
离身认知需要不断向前,人工生命和进化计算存在可能。早期的人工智能研究主要集中于逻辑推理的方法和程序规则的系统,在此之后更多认知科学家不断走向不限于逻辑推理的方法和程序规则的系统,转而进入以非线性科学、细胞自动机、形态形成和遗传等理论为基石的人工生命研究,经由计算机来生成自然生命系统行为的仿真系统,通过信息数学模型来模拟进化的遗传算法,力图了解真实世界中的生命和生命过程(阎平凡,张长水,2002:357)。人工生命的倡导者主张,生命是系统里各个不同组成部分及相应功能的有机化,在物理机器上能够用不同方式创造这些功能的各种特性,进化本身可以视为一种探索试验的复杂过程,最重要的是生物本身由其自组织性、自适应性造就,并不在于是否由有机分子组成(波素马特尔,1998/1999:200)。由此,人工生命倡导者希冀就不是要再造一个大脑,而是借助遗传算法不断进化出一个大脑。目前以人工生命为代表的行为主义被认为是极有前途的研究范式,重点强调复杂性科学和“人工有机体”的自组织、自演化、自涌现特征。虽然“生命的本质就是计算”未必都能认同,但是人工生命及其进化计算成果的确是不断给认知科学变迁带来新启示。
具身认知也需要不断向前,不时回顾原初也是一种思路。布鲁克斯在所著《没有表征的智能》中提出,人工智能在现有计算机理论基础上,尚未充分反映生物组织的智能,人类和其他动物是通过不断学习来调整行为以便更好地适应环境从而认知的(Brooks,1991)。由此,我们似乎可以循着进化的阶梯由低而高地寻找智能的源头。布鲁克斯(1991)认为:“当我们研究了非常简单的低等智能时,发现关于世界的清晰的符号表征和模型事实上对了解认知起到阻碍的作用,这表明最好以世界本身作为模型。”布鲁克斯还试图用人工造物系统来模拟场景、环境、情境。需要注意的是,不时回顾原初并不等于回到纯粹的还原主义、物理主义和理性主义,而是有必要融合复杂性科学和生物学眼光。与此同时,仍然需要回答前述哥德尔的两个哲学问题:人心(mind)到底有没有物质载体?人类理性提出的问题人类理性是否一定能够解答?计算机的复杂性本身仍有相当大限度,希冀计算机的复杂性实现人类心智的复杂性尚有相当距离,而人类智能的自涌现、自适应、自演化或许是复杂性之复杂性其后突现的简单性。
离身认知与具身认知需要不断走向更高阶交互,以解决更高级的人工智能认知问题。在持续进行的适应性生存演化中,人类认知的不同方面与不同水平彼此协调、相互促进从而共同形成一个“统一的姿势”,而不是相互独立、彼此排斥和截然分开的。既然人的“统一的姿势”是由不同方面与不同水平的认知共同形成,在人工智能认知上也不必在两代认知科学之间做出非此即彼(either-or)的两难取舍,而可以采取亦此亦彼(both-and)的交互融合(Clancey,1997:225-242)。若非第一代认知科学家严格秉持计算思想,也不会有计算机、互联网、人工智能等如此巨大的当代成就。恰如克兰西的看法:“最重要的是,我不认为描述的模型是错误的而情境认知是正确的。相反,我的宗旨是揭示不同的观点如何可能调和。我发现这样的观点常常是有益的......”(Clancey,1997:3)更进一步,亦此亦彼(both-and),而不是非此即彼(either-or),适用于离身认知与具身认知的和谐共处,也有益于未来社会人工智能与人类智能的协调共存。“日益崛起的技术力量和日益提升的人类智慧之间进行的不是一场竞赛,而是一个携手并进相互扩容的过程。”(殷乐,2016:24)
本文系简写版,参考文献从略,原文刊载于《国际新闻界》2020年第5期。
本期执编/彤昕返回搜狐,查看更多
人工智能新闻
新闻新品曝光
行业动态
深度解析
最新消息
人物专访
评测单品评测
横向评测
对比评测
专项评测
导购常规导购
报价
热门频道手机频道
Hi5G
智能汽车
智能家居
科学技术
追新求异人工智能
电脑平板
消费数码
互联网
智能家居产品
视频手机视频
评测视频
创意视频
上手视频
智能硬件视频
手机周边视频
查手机手机大全
品牌大全
手机排行榜
手机评测排行
汽车大全品牌找车
新能源汽车
紧凑型车
SUV汽车
论坛苹果论坛
三星论坛
华为论坛
小米论坛
vivo论坛
一加论坛
图片库手机图片
样张美图
智能家居图赏
汽车图赏
酷软汇Android应用
苹果应用
其它小道消息
手机汇
发布会直播
专题