人工智能技术背景下的新闻业变革与坚守
随着智能手表等可穿戴智能设备、无人驾驶、阿尔法狗大胜李世石的人机围棋对战等被人们所熟知,人工智能浪潮已经席卷了公共服务、教育、医疗等多个行业。媒体行业当然也不甘落后,国内外已有不少媒体在人工智能+新闻方面做出了探索。可以说,这是媒体行业发展最好的时代,也是最坏的时代,外部环境瞬息万变,不断影响新闻业,媒体人始终谨小慎微,如履薄冰。人工智能会给新闻业带来多大的变革呢?究竟是颠覆还是辅助?新闻业应该如何应对变化?种种问题都值得新闻行业思索。
本文将溯源人工智能发展历史,介绍国内外在人工智能+新闻方面的进展,通过人工智能在新闻业应用的优劣分析思考人工智能与新闻业的结合对于传媒行业来说究竟是机遇还是挑战,新闻业如何在新技术冲击下实现进化。
一、人工智能概念及应用现状
人工智能(ArtificialIntelligence)的概念早在1956年就已被提出,“人工智能是关于知识的学科―――怎样表示知识以及怎样获得知识并使用知识的科学”,[1张妮、徐文尚、王文文:《人工智能技术发展及应用研究综述》,载《煤矿机械》第30卷第2期]美国斯坦福大学人工智能研究中心尼尔逊教授如此定义。美国麻省理工学院的温斯顿教授则认为“人工智能就是研究如何使计算机去做过去只有人才能做的智能工作。”[曾雪峰:《论人工智能的研究与发展》,载《现代商贸工业》2009年8月刊]本文将人工智能定义为“通过软硬件结合,用各种手段使其能够达到类人的智能,使机器能够做像人一样的处理事情”。
近半个世纪以来,人工智能技术全方位地向各个领域延伸,在新闻领域,人工智能也与新闻业产生了一系列的化学反应。本文所探讨的“人工智能+新闻”指的是人工智能技术在新闻写作、采访、编辑等新闻活动中的具体运用,人工智能给新闻业带来的变革我们称为媒体的智媒化。
二、人工智能在新闻生产上的应用与反思
(一)、人工智能在新闻业的应用
1、外媒AI+新闻:全方位、多环节应用
纵观国外人工智能在新闻业的应用,可以发现不少媒体都已经或多或少的涉足了AI界,AI+新闻的探索时间较长,探索结果也较为深入,当前人工智能已经全方位、多环节渗透到新闻领域中,下文将试图按照新闻生产流程来分析国外AI+新闻的相关应用。
(1)、线索收集、信源捕获
人工智能可以在新闻生产的前端为媒体提供信源。《华盛顿邮报》目前应用的聊天机器人Feels,在2016年总统大选期间就向使用用户收集相关线索,以此获取选民在选取前的政治倾向。Buzzfeed与之相似,它目前主要通过Facebook上的关注者借助Messenger为其提供新闻素材。在messenger上接受buzzbot的推送时,他还会告诉用户它在为某地发生的某事手机新闻素材,并询问用户是否关注这一新闻?是否在当地在现场?对这一事件有何态度?是否可以提供现场素材等等?这些问题会给出三个预设答案,用户只需选择进行反馈,最后,用户还可以选择一个表情来表达对这一新闻的态度。
(2)、机器人写作
当下,国外媒体中机器人写作已经成为相当广泛的现象,机器人写作的不少新闻已经让人难以分辨究竟是记者还是AI的大作了。美联社就利用算法自动撰写关于棒球比赛的相关报道,这一技术也在电子商务、房地产以及金融服务等领域得到应用。美联社采用的用来撰写新闻的机器人叫Wordsmith,早在2014年7月美联社就和科技公司AutomatedInsights合作,利用AI技术来报道商业领域的企业财报相关新闻。操作原理是将公司盈利状况相关的数据导入机器人平台,经过wordsmith为美联社量身定制的算法处理,wordsmith将这些数据信息与他信息比对参照,在几毫秒的时间里就可以写出一篇标准的带有美联社风格的的新闻稿件。记者在涉及大量数据信息的报道中差错率一般会有所提高,机器人新闻
就不需要担心这个问题。准确性的提升是一大改进,另一方面,从一季度300份到一季度3000份的生产能力也大大地提高了美联社的财报数量。
除此之外,美联社还宣布将在美国职棒小联盟的赛事报道中应用人工智能技术,他们专门聘请了一批自动化领域的专家来开发、管理和整合美国职棒小联盟的报道。美国职棒小联盟的官方统计数据服务商MLBAdvancedMedia和AutomatedInsights能够在数分钟之内为他们提供比赛数据,wordsmith则通过查看并分析海量结构化的数据,从中发掘出新闻点,例如,某队选手的赛场表现不如预期等,然后人工智能会自动生成可读性的内容。
机器人写新闻在财经、体育这种模式化的报道领域可以说是具有得天独厚的优势,此外,强调时效性的新闻方面机器人记者也大有用武之地。2014年美国加州曾发生一次4.4级的小地震,《洛杉矶时报》凭借机器人记者撰写的新闻稿成为最快报道该新闻的媒体。这要归功于《洛杉矶时报》的地震新闻自动生成系统,美国地质勘探局在勘测出地震消息的同时会给系统发送地震信息,随后机器人记者会自动将这些数据套入相应模板生成新闻报道,这一系统是由该报的记者兼程序员KenSchwenck开发的。
国外的不少媒体,机器人记者已经成为其新闻编辑室中的重要一员,不过目前机器人写作主要集中在对信息的收集整理而非内容创作上。机器对程式化的新闻资讯(例如灾害、体育、财经等动态信息)可以做到准确、及时地生成和发布,用时短且错误率低,这是机器处理得天独厚的优势。而且,此类报道一般不需要进行深入细致的调查,也不存在错综复杂的关系,因此,现阶段在各大媒体中应用的人工智能使得人类记者无需在简单、机械性的工作中耗费时间,得以将更多精力投入到更有创造力的内容创作上。
(3)、辅助编辑
新闻编辑工作上人工智能近年来也有所涉猎,2015年7月,纽约时报R&D实验室就设计了可以自动标记文章的机器人,在编辑工作中,它可以识别内容并分析,从而提供推荐使用的关键词、标签等,这使得新闻编辑室可以更加便捷地收集内容。
美国知名的互联网新闻博客Mashable则将关注点放在了科技公司与社交媒
体的相关新闻上。2016年2月,Mashable的执行董事BenMaher曾表示Mashable已经尝试利用人工智能技术发现新闻,他认为网站主页将不再有活力,现代用户需要媒体主动吸引。[3刺猬公社《在人工智能和新闻的结合上,国外媒体已经飞起来了?》]为此,Mashable启动了数据分析工具Velocity,它可以分析判断新闻的传播趋势和可能的传播爆点,此外,Velocity还可以帮助编辑们发现传播过程中的“饱和点”,当一则新闻的分享率达到95%时编辑将不再予以关注,否则编辑们则会考虑如何让新闻继续发酵,到达更多的用户。
(4)、资讯分发
内容生产上人工智能可以帮助媒体收集素材,获取信息,写作新闻,有了内容后更重要的则是传播出去,而如何找到用户的好奇点,将内容分发给适配用户实现精准传播则是人工智能带来的另一突破。
目前,《纽约时报》就采用了Blossomblot作为机器人编辑,它主要辅助编辑选择潜在的热文。纽约时报内部统计数据显示Blossom筛选出的文章点击量是普通文章的38倍。Blossom的主要原理就是通过分析Twitter等社交媒体上的文章数据,从而判断哪些新闻更具有传播潜力。随后将这些信息反馈给人工编辑。未来,Blossom还可以通过机器学习完成独立取标题、写摘要等工作。
来自美联社的战略经理FrancescoMarconi认为,人工智能赋予新闻机构创造无限内容的可能,并且可以根据读者的个性、心情、社会经济地位以及地理位置,向每位读者推荐适合他们的故事,让用户真正享受到“私人定制”资讯。[4腾讯网《人工智能会成为记者的好伙伴吗?》http://news.qq.com/a/20161111/032007.htm]在Marconi看来,人工智能将从根本上提高“个性化分发”的效率,而该领域的巨头Google、Facebook、Twitter早已深谙此道。从2013年以来,不少新闻机构就在人工智能方面投入了很多精力,比如借助Facebook的通讯软件messenger,华尔街日报等使用机器人bot进行新闻资讯的推送,实现了一定程度的自动化。
(5)、交互反馈
技术的变革使得传统新闻业中读者的身份变为用户,这极大地突出了用户的主动性,人工智能目前也在这一方面发力,通过人机对话等实现双向传播,增强
用户粘性。
数字商业新闻网站Quartz在2016年也在客户端里加入了人机对话推送资讯的功能。Quartz界面是一个对话窗口,会以聊天式的方式向不同读者推送新闻。读者如果想深入了解,可以在窗口下的选项继续追问获取更多细节。Quartz推送的内容人工编辑会进行选择编辑,但用户与Quartz的互动则由机器算法完成。
(6)、资讯服务
从机器人记者写作新闻、为媒体收集素材到从事辅助编辑工作再到交互反馈,可以说,人工智能基本上全方位、多环节地渗透到了国外媒体的新闻实践。除直接参与新闻生产流程外,人工智能还是新闻业的好帮手。2012年,《华盛顿邮报》就使用“TruthTeller”核实新闻的准确性;“truthteller”主要功能是核实新闻的准确性,它通过记录新闻报道的内容,即时与数据库比对,一旦发现问题就会发出警报,以此来保证新闻信息的真实性。
目前,不少科技公司在人工智能领域方面已取得不少进展,谷歌就将其人工智能技术应用在了新闻领域。2014年谷歌推出了一款基于大数据的预测系统─GoogleAlert。输入需要检测的关键词,这一系统会全天候检测出现这些关键词的网站,并将信息发送给用户。此外,他还可以将正在发生的事件结合背景与相关情况智能分析,预测事件可能带来的影响。也就是说。GoogleAlert在帮助记者收集新闻之外还可以判断新闻的发展趋势、后续价值等。
2、国内AI+新闻:试水与起步
国外AI+新闻发展已经如火如荼,相比之下国内人工智能与新闻业的结合相对还处于起步阶段,目前人工智能与新闻业的结合主要体现在机器人写作与智能化推荐方面。
(1)、写作机器人
与国外类似,机器人记者也是国内新闻业相对走在前面的应用。腾讯在2015年就在其财经频道的新闻写作中使用了人工智能,它的机器人记者名为Dreamwriter,当年8月份机器人记者就发布了一篇关于CPI的稿件,题名为《8月CPI同比上涨2.0%创12月新高》。稿件包括数据信息本身和相关行业人士的数据解读两部分。文章与普通记者写出来的并无太大差别,只是在最后注明了是由
Dreamwriter撰稿。此后,dreamwriter不断写作相关新闻,根据《中国新媒体趋势报告2016》数据显示,2016年三季度,腾讯财经机器人记者发布的新闻数量已经达到了4万篇。
新华社也于2016年11月18日推出了写稿机器人“快笔小新”。其操作十分简单,输入一个股票代码再点击一下鼠标即可生成一篇财报分析新闻。“快笔小新”只是一个电脑里的程序,尽管其写作的内容并不完善,但快速的出稿速度是极大的优势。目前,新华社的体育部门和《中国证券报》也采用了“快笔小新”。一直自诩是科技公司而非媒体的今日头条则在里约奥运会之际,推出了写作机器人“xiaomingbot”,这款机器人可以在数据库更新的两秒之内生成相应的新闻并发布;同时,它的系统内内置了较多可供选择的样式,这使其能够根据赛前预测与实际结果的差异选择相应的语气生成新闻。
目前,国内的人工智能相对停留在较为初级的阶段,已有的写作机器人主要参与体育新闻、财经新闻等报道,新闻题材上也主要是快讯、财报等。不过,虽然其写作的新闻在质量上没有显著改进,但机器人在新闻写作上的应用极大地提高了新闻数量,给了用户更大的选择空间,头条实验室的负责人李磊这样评价小明,“张晓明最大的意义在于,面对奥运会同时举行的上百场比赛的综合赛事,可以观察到每一场比赛报道,无论这场比赛多么冷门和不重要。在传统新闻理论中,某些冷门比赛乒乓球的小组赛的报道价值不大,但实际上依然有可观的阅读量。”[5刺猬公社金凯娜:《在人工智能和新闻的结合上,国内媒体到底做得怎么样了》]这恰恰符合了长尾理论,以前因劳动力不足或者缺乏关注度等原因被忽视的新闻资讯借助机器人记者得以被生产,属于小众的需求得以满足。
(2)、智能化推荐
有了更加丰富的内容,接下来更重要的就是让更多的人、更关心这一新闻的人知道。现在越来越多的新闻应用都采用了个性化推荐,这一领域最初得到大家广泛关注是因为今日头条的崛起,“你关心的,才是头条”这句广告语表明今日头条所侧重的是根据用户的个性需求为其私人订制新闻。其内在逻辑在于当用户长时间使用app浏览新闻后,后台会不断收集用户的阅读数据,如浏览栏目、停
留时间等等,从而为用户精准画像。同时,随着用户数量的增多,后台可以根据相似性为用户分群,进一步实现智能化推荐。
(3)、智能互动
如今,人工智能的应用使得一些内容提供者得以用聊新闻的方式为读者去繁就简,它使得同类新闻可以汇聚起来,通过自然语言处理技术对内容进行结构分析,然后通过信息特征学习等方法,将事件核心信息整理成一百字左右的聊天内容,高效满足读者基本的信息需要,随后读者可以根据其自身需要提出疑问从而获取深度解读等信息。
“聊”新闻主要在百度新闻app上有所应用,进入界面后,可以通过对话体形式读新闻,阅读更加直接。系统可以准确回答关于新闻内容的提问。在这个过程中,聊新闻可以略去媒体报道中80%的内容,其目的在于满足读者对信息基本的需求,互动环节则可以充分发挥读者主动性,引导读者进行“深阅读”。
(二)、反思人工智能在新闻业的应用:机遇与问题
1、机遇:人工智能解放并辅助新闻业
人工智能在新闻业的应用为其带来了发展新机遇,极大地解放了新闻人,正如《纽约》杂志撰稿人凯文・罗斯所言,机器人写作处理的是人类新闻从业者不愿耗时去做的、与大量数据相关的“体力活”,让新闻从业者从大量低附加值的重复性劳动中解脱出来,以更多的时间和精力去从事创造性更强的新闻工作。[张海霞:《机器人写作时代新闻从业者的应对》,载《新闻战线》2016年11月上,第111页]具体来说,人工智能的应用在以下几方面为新闻业提供了很好的辅助作用。
(1)、高效处理大数据
人工智能对数据具有更高的敏感度,它可以从海量数据中观察到人类不宜洞察的内在关联,从而生产处具有新闻价值的报道,自动挖掘具有传播潜力的新闻内容将有效扩展人类的观察视野。此外,冗杂的数据往往会牵扯记者大量的时间精力,而且对于体育新闻、财报等动态信息的写作通常有章可循,机器人记者几秒钟时间就可以写出一篇与人工作品无差的新闻,这将记者从大量繁杂重复性的工作中解放出来,将人力资源用在更有创造力的内容生产上。
(2)、新闻精准化、智能化、个性化
新闻业通过与人工智能的结合,媒体可以实现对用户的清晰画像,从而更加精准的分析用户,实现内容生产与份分发的定制化、个性化、对象化。以往千人一面、一点对多点的生产模式和传播模式都发生了巨大转变,“你看手机的同时手机也在看你”,人工智能技术使得个性化新闻时代到来,除此之外,人工智能还可以为用户进行场景化匹配,罗伯特・斯考伯、谢尔・伊斯雷尔在《即将到来的场景时代》写道:“移动互联网时代,场景(情境)的意义被极大地强化,移动传播是基于场景(情境)的服务,即对环境的感知及信息(服务)适配。”[罗伯特・斯考博、谢尔・伊斯雷尔.即将到来的场景时代[M].北京:北京联合出版社,2014.
]根据用户不同的时间段、不用的地理位置等人工智能可以判断用户阅读需求,如用户运动时,可穿戴设备可以为用户提供短小精悍的突发新闻新闻简讯等消息,等待时则可以阅读趣味性的内容等等。
(3)、角度客观且成本低廉
人工智能在生产新闻、收集素材、辅助编辑时只会依照算法程序等进行,除
非刻意的人工干预,否则其提供的内容都将是一种将结构化的数据进行文本形式的可视化表现,具有极强的客观性。而人工生产难免会受各种各样的限制从而影响其客观性。除此之外,人工智能作为一种软硬件结合的产物,如本质上是一套算法程序的机器人记者,可以不知疲倦、永不停歇的工作,使用成本较低。
2、问题:人工智能应用的局限
不过,目前人工智能在新闻业的应用已经出现了一些问题,以智能分发上为例,单纯依靠算法点击推荐阅读可能会带来阅读浅薄化甚至低俗化的后果,用户容易陷入信息茧房的处境,真是可能导致假新闻肆虐。综合来看,目前人工只能与新闻业的结合面临以下几个问题:
(1)、写作模式单调
就目前国内外人工智能在新闻写作方面的应用――机器人记者来看,我们可以发现其主要应用于体育、金融等数据繁多的新闻报道中,这些新闻只需对数据进行简单的分析加工形成模式化的报道,内容枯燥,模式单一,缺乏可读性。机器人记者只是在系统内设的模板上填充处理数据信息生成新闻报道,尽管客观公
正,但千篇一面的报道很难对读者有吸引力。他们的报道难以满足读者的高层次需求,只能提供基本的事实信息。
(2)、应用领域有限
当下写作机器人所涉猎的报道题材局限于快讯、财报等只需要简单的数据收集、信息整理的内容。它们无法完成新闻评论、现场报道、深度调查报道等题材的新闻写作。事件性新闻一般有较强的现场感,在基本的人物、时间、地点、事件等基本要素外,很多细节信息也是重要的内容,而这些机器人记者无法捕获。新闻业有这样的说法:七分采三分写。这表明了优秀的新闻报道不是“写”出来的,而是“采”出来的。机器人记者在这一领域恐怕难以施展身手。此外,深度报道这类需要深入挖掘信息,厘清事件来龙去脉、前因后果与错综复杂人物关系的报道也需要脑力完成。这些都建立在一定的社会经验与感情认知的基础上,机器人记者显然难以做到。新闻评论也是机器人记者的一大难点,评论所体现的是作者的立场、观点与价值取向,具有鲜明的主观性,而机器人作为一种辅助工具,其智能程度难以达到可以发挥主观能动性的地步。以上这些都表明人工智能在新闻写作领域应用受限较大,且突破难度大。最后,基于各个领域的差异性与专业性,机器人记者只能在少数专业领域报道中有用武之地,大部分的行业报道它难以胜任。
(3)、缺乏主动性
归根结底,人工智能在新闻行业的应用都是基于人类的设定,它缺乏主动性,新闻写作方面机器人记者不具备新闻敏感性,无法主动发现新闻,只能根据预设模板对特定内容报道。收集素材、辅助编辑等方面也是基于一定的指令,无法脱离人的指令独立运作,这表明人工智能目前尚处于一种依附状态。
(4)、新闻特殊性质需要人类把关
虽然人工智能与新闻业的结合已经为不少媒体节省了大量人力物力,记者编
辑也得以从繁杂无意义的初级工作中解放出来,但在新闻生产的最终环节,大多数情况下仍需要专业新闻人进行把关。新闻活动作为一种社会性工作,涉及政策、法律法规、伦理等多方面的问题,人工智能终究无法取代人脑,涉及价值判断等方面的把控还是需要人类把关。
三、人工智能技术背景下新闻业应对探索
加拿大传播巨擘麦克卢汉“媒介即讯息”的论断指出媒介技术给社会发展带来的影响,他认为任何一种新的媒介技术被广泛应用后,会给社会发展带来新的尺度,社会各个方面也将会适应这一尺度有所变化。也就是说,真正有价值的讯息不是传播内容,而是所使用的传播工具带来的变革。人工智能的应用更是印证了这一观点,作为一种新的媒介技术,人工智能将对社会变革产生极大的推动作用,新闻业的变化也是不可阻挡的。
人工智能给新闻业带来的新变局引发了众多媒体人的思考:记者的饭碗还能保得住么?人工智能究竟是新闻业的敌人还是伙伴呢?回答这一系列问题需要理性分析人工智能给新闻业带来的变化,厘清优劣,认清媒体人核心价值所在,实现人机共生。
(一)、厘清人机关系
人工智能在新闻业的应用曾多次引发业界人士的恐慌,不少人担心职业新闻人的饭碗将会被人工智能取代,这样的科技性恐慌似乎伴随着每一次重大技术的变革,早在上世纪60年代,一些公司开始使用计算机和机器人时就有一阵恐慌弥漫,但事实上,每一次关于技术的恐慌过后,技术的进步为社会创造的新的就业机会要远远多于它所替代掉的岗位。
人工智能与新闻业之间彼此纷繁复杂的关系可以用Neuberger和Nuernbergk所提出的“竞争、辅助和融合”三个维度来看待。职业新闻人应该认识到人工智能在新闻业的渗透都属于补充范畴,为新闻业提供更加多样丰富的可能性。因此,人工智能的出现不应该使新闻人妄自菲薄,而是应分清人类与人工智能的主客体关系,人工智能在新闻业的任何应用都是人为创造的产物,人机始终是附属关系,人工智能对新闻业是辅助作用而绝非取代新闻人。
(二)、新闻业态重塑
人工智能在新闻生产各个环节的应用极大地改变了新闻业态,这使得媒体的智能化进程不断加速,并将重构媒体的生产模式与呈现方式,推动了新闻人的转
型。新闻业对从业者的数量和质量要求将会产生较大变化,低层次的新闻记者需求将大量减少,职业新闻人将需要更专业的新闻技能。这些都要求新闻从业者重新认识自己的核心价值,充分提高自身的新闻专业素养和数据技术相关能力,努力在深度分析与价值判断等方面发挥优势,将职业发展方向转移到调研报道、深度新闻等方面,提供更优质的内容,实现自身转型。
(三)、新闻人更专注人
人工智能在新闻业的应用上一大突破在于写,但与新闻人相比,其局限也在于写。前文弊端方面已分析过机器人记者的稿件通常标准化、模板化,这使得读者感到重复生硬,缺乏“人味”。这恰恰是新闻人需要发挥其价值所在的领域,新闻记者要充分发挥人的主观能动性,在新闻写作中结合理性与感性思考,将关注点集中在人身上。新闻人应该在体察人情冷暖、发掘背后的故事方面付出更多努力,生产有人情味、有温度、有深度的新闻内容。在西方新闻业有第四权力的说法,新闻业是重要的社会公器,“铁肩担道义,妙手著文章”,要想写出富有感染力的新闻,记者必须要有人文主义情怀,深刻领悟人性与人情,关注大众命运。
(四)、新闻人技能提升
人工智能可以起到辅助编辑的作用,但媒体机构的编辑流程常常是相通的,校对文本、润色文字、内容把关、稿件编排等无法由人工智能统一完成,机器人写作的内容往往也需要经过人工编辑的审核才能发布,编辑的把关人地位越加重要。此外,自动化生产的新闻稿件所需要的编辑与传统编辑也有着不同的职能需要。传统编辑主要负责信息、语言把关调整,而机器人记者生产的新闻一般没有基础语法、信息错误等,编辑无需在校对上发挥太多精力,更重要的是润色内容,丰富语言,减少读者的刻板印象。因此,机器人记者的应用也对编辑的能力提出了更高的要求。
人工智能多为快速模板化写作,深度报道,新闻评论,调查报道等需要多方信息来源。涉及大量素材收集分析的题材更需要新闻人的智慧与专业能力。人工
智能在新闻写作方面的应用使得记者有更多的时间投入到现场报道、深度报道、
评论、软新闻等方面的写作中。记者要注重培养自己的综合素质,开阔知识视野,丰富知识结构,写出优质的新闻作品。
四、结论
人工智能已经在国外的媒体行业大显身手,国内的AI+新闻进程也渐渐起步,人工智能在新闻业的应用使新闻生产更加高效便捷,用户画像更加清楚,新闻传播效果更加优化,它对新闻业的内容生产、传播方式、反馈互动等带来了革命性的影响。不过,人工智能的应用也存在一些问题与不足之处,关于两者的结合,新闻业应认识到AI与新闻的关系,主动拥抱新变化。
其实,人工智能与记者恰如机器与人类的联姻。理想的合作状态应该是因为使用了这些技术和机器的帮助,人可以把他的工作做的更好,人可以成为更好的人。“好的婚姻不是1+1=2,而是0.5+0.5=1”。单独来看,人与机器都有各自的局限与劣势,但当两者共生协同发展时,就成了“1”,这个“1”,可以是一篇新稿件、可以是一个新客户端、可以是一个新编辑部,也可以是一个新的时代。
(责编:尹峥、赵光霞)分享让更多人看到
《人工智能在媒体和内容行业的应用》调研报告
原标题:《人工智能在媒体和内容行业的应用》调研报告人工智能在产业落地上已经有了很多的场景,在媒体和内容行业,头部内容平台凭借领先的AI能力获得了更庞大的用户支持、获得更好的商业变现,拥有更高的运营效率,通过技术建立了垄断的市场地位。而对于众多中长尾内容行业来说,人工智能却还是奢侈品。基于此背景,近日,第四范式联合机器之心、亿欧等媒体发布了《人工智能在内容行业的应用》调研报告。报告发现,所有应用都在抢夺用户时间,通过人工智能技术把内容更加精准地分发给用户,可以大大提升用户使用时长和用户留存从而提升商业效益。对于众多中长尾内容平台来说,人工智能还是奢侈品。智能推荐是中长尾内容平台ROI(投资回报率)最高的人工智能应用技术。
调研背景内容产业置身于大移动互联网浪潮中,面临着巨大的产业变革,众多头部内容机构凭借对人工智能新技术的投入和领先优势获得更多用户青睐、取得更大商业效益。比如短视频巨头快手凭借领先的计算机视觉与深度学习能力,通过人、内容及二者互动数据的理解,形成众多优质模型;通过算法匹配,推荐给用户他们可能感兴趣的内容,实现人与内容、人与人的精准连接。快手的技术深入产品骨髓,在视频生产、广告推荐等多角度均有应用。快手的技术思路重视创新性,推出了以GPU为核心的广告推荐训练系统。截至2019年5月,快手DAU超过2亿。每日上传短视频超过1500万条,库存短视频数量超过100亿条。另一家字节跳动建立了高并发、高可用、低延时的大规模推荐系统,2019年资料显示,其服务器数量超过15万台,每天处理数据10PB,训练样本量超过200亿条,接受用户请求300亿次。截至2019年1月,字节跳动旗下全线产品DAU超过6亿,MAU超过10亿。
分析方法本次分析调研对象以内容行业的头部中部机构为主。报告中主要分析了人工智能在头部内容行业的应用场景、技术投入、价值收益,以及针对中部内容行业的相关调研数据。报告中的资料和数据来源于行业公开信息、数据调研、以及对业内人士的深度访谈。报告中问卷调研的样本来自中部内容行业。
人工智能技术在内容行业的应用现状短视频和资讯两个领域用户时长增长明显,2019年3月用户月总使用时长同比增量占比TOP10细分领域总增量:87.2%,视频、数字阅读、资讯、音乐短视频人均单日使用时长相加为202.7分钟,而中国网民人均上网时长为210分钟,网民上网大量时间用于内容消费。
展开全文在内容生产(机器写作、视频自动生成、AI虚拟主播、智能语音、机器翻译)、内容审核(内容安全审核、低质内容识别……)、内容分发(内容理解、用户理解、智能推荐)、人机交互、人脸识别、积分反作弊、广告智能分发等内容平台运营的各个环节,人工智能都有了深度的结合。
人工智能技术是内容行业的中台力量
机器学习是在内容行业里渗透率最高的AI技术
在技术层面,机器学习、自然语言处理、计算机视觉是渗透率排名前三的AI技术。
一些数据和案例表明,人工智能技术极大地促进了内容行业的长期发展:3秒钟生成一篇快讯,1秒钟可以审核一百篇稿件,用人工智能之前平台日分发内容5000条,用人工智能之后,每天分发内容达120万条,人均使用时长提升45%,点击率提升58%。
快手的人工智能应用案例,从硬件到平台、算法到应用层,AI在快手已经得到体系化的应用。
而在中部内容平台,却面临技术人才严重匮乏的问题,团队缺乏技术基因,缺乏对先进技术的认知,缺乏AI技术人才是中长尾内容平台在应用人工智能时遇到的主要问题。调研数据表明56.5%的团队中技术成员比重少于20%,受访者中团队中AI人才不足10人的占比85.5%。
智能推荐是应用最为广泛的场景,商业化变现和内容审核是大家期望结合AI的两大场景。
报告指导:亿欧智库研究院院长由天宇、易观智库新媒体分析师马世聪、机器之心产业服务负责人樊晓芳。返回搜狐,查看更多
责任编辑:人工智能在传媒业中的应用现状、机遇和挑战
19北师大新传学硕938
论述题
人工智能在传媒业中的
应用现状、机遇和挑战
答题思路
人工智能技术正在颠覆我们的生活和想象,传媒业也不例外。人工智能对传媒业带来了新的可能和新的挑战,每年都有学校关注到这一大热的考点。可从本题题目所问组织答:
☑首先对人工智能技术简单介绍,
☑再从人工智能在传媒业中的应用现状、机遇和挑战三个方面结合现实例子展开论述,
☑最后对人工智能的未来进行展望。
参考答案
作为计算机科学的一个分支,人工智能已经存在了几十年,其目标是了解人类智能的本质,以模拟、延伸和扩展人的智能。其中的语言识别、图像识别、自然语言处理和专家系统等,都与新闻信息生产相关。在传媒业,人工智能在内容生产、分发等环节全面渗透,同时面临机遇和挑战。
1
人工智能在传媒业中的应用现状
❶最早开始于美国传媒业
利用人工智能进行写作最早开始于美国,2014年,美联社开始运用Wordsmith机器人写作上市公司财务报告新闻,是业界最早使用机器人写作的媒体之一。目前美联社、《纽约时报》、《华盛顿邮报》三家媒体在人工智能技术研发与应用上处于全球领先地位。《纽约时报》用于新闻采访和写作的原创聊天机器人有30多个,在美国大选、里约奥运等重大新闻事件中发挥了重要作用,《华盛顿邮报》则投了近100个机器人辅助编辑部工作。
❷人工智能在我国传媒业的应用
2015年9月,腾讯财经推出了自动化新闻写作机器人“Dreamwriter”,用时一分钟写出第一篇报道。同年11月,新华社可以写体育赛事中英文稿件和财经信息稿的写稿机器人“快笔小新”正式上岗。今日头条实验室研发的AI机器人“张小明”在2016年里约奥运会开始后一周内就生成了超过200篇的简讯和消息。目前,BAT三巨头以及今日头条已经将机器人写作应用在门户网站以及App客户端上。
除了百度、腾讯、阿里、今日头条等互联网巨头,新华社、人民网等央媒在人工智能开始试水外,地方新闻媒体中,天津北方网在客户端中加入了人工智能的角色用于客服工作,而浙江传媒的新闻App“浙江24小时”在与微软合作推出的小冰,不仅突破了客服的角色,而且利用机器人的数据计算能力和数据分析能力,加上自然语言的交互能力的,让小冰从机器人客服向机器人记者进行了转变,并在客户端开设了专栏,保持了稳定、高质的内容输出能力。南方都市报推出写稿机器人“小南”,投入春运报道中,迅速完成了数据描述和分析,并自动完成稿件的撰写。
如今,体育报道、财经报道、房地产分析报告、民意调查、市场调研报告等比较容易实现标准化生产的领域,人工智能的应用迅速普及推广。从传统的新闻生产流程方面来分析,可以看到至少包括新闻采写、新闻编辑、新闻分发与评论管理各方面技能技术的更新,人工智能给人类的新闻传播业带来了大革新。
2
人工智能在传媒业的机遇
❶内容精准、提升效率
人工智能的优势主要体现在效率上,这也是对新闻业最直观的影响。机器人写作使得新闻生产形成了自动化,生产效率得到前所未有的提升,全天候的工作模式更体现在海量地生产内容上。写作能力和效率的提升,将使得机器人写作远远超过传统新闻工作者的工作效率,在更大范围内替代人工。
❷反应迅速,应对突发
这一点地震信息的推送上应用最为频繁,基本上在人体感知地震发生后就能在网上刷新到由机器人发布的快讯,信息准确、迅速,极大地补充了应对突发事件的资讯发布优势。此外在应用较多的股票行情报盘、上市公司公告简要报道以及体育赛事的赛果播报上,机器人写作更是以“秒发”的反应速度和准确信息为人称道。
❸算法推荐,个性化分发
人工智能的大数据处理技术让受众的资讯需求得到放大和精确计算。内容分发由以往的人工编辑处理变成了机器人操作,按照设定的算法,进行准确有效的信息推送。今日头条的客户端就是通过人工智能先对用户进行海量推荐,根据从用户“反馈”到的信息选择进行算法计算,意即通过分析用户的喜好抓取网络上的相关信息,并自行将用户感兴趣的信息推送到用户的终端上,用户信息越多,推送内容越精准。在推送信息的同时,还能提供与用户个人生活场景相匹配的私人定制产品。
❹节省人力物力
人工智能的出现在很多方面取代了记者和编辑的职能,让记者和编辑从以往的简单又繁复的重复性劳动中解放,使得新闻机构可以将人力投入到信息处理更具人性化、内容的深度挖掘、报道的角度独特和多样性上面去。这样减少了新闻机构在“新闻蓝领”角色上的投入,而集中更具高级写作、采访和编辑处理能力的新闻人才,从而在人力和物力上达到了简约并精细化。
3
人工智能在传媒业的挑战
❶对新闻工作者的挑战
人工智能的应用趋势,已经使得从事新闻业的广大媒体人感受到了从未有过的职业危机。人工智能对于新闻生产、分发流程的重构,使得原有流程节点上的人工面临了岗位调整甚至是失业的危机。随着科技发展,人工智能的不断升级,机器人的写作能力在快速迭代,代替人工的领域也在不断扩大。从文字稿件的撰写到图片的处理,到如今无人驾驶技术的快速发展和应用,在不久的将来,在采访过程中完全可以由机器人来处理,从而达到资讯从收集到处理的全程自动化,人的角色将更一步被弱化甚至是完全消失。算法推荐的技术也在某种程度上对人力的依赖大为减少。
❷新闻没有温度,品质、深度无法保证
以今日头条为代表的人工智能的应用,实现了对海量信息的深度挖掘和发布,使得每一条信息都发挥了最大效能。但算法改变了新闻传播的传统分发模式,只将用户感兴趣的资讯进行推送,拓展了某一话题或领域的宽度和深度,但这也导致受众长期接受大规模批量生产的同质化信息。经过机器人写作的稿件虽然在速度、数量上达到了人力之不可为,但是传统意义上读者能感受到的新闻的温度就没有了。人工智能处理成的稿子只是根据大数据分析得到成稿,尚无法进行系统、缜密的深度报道,用户更难以在海量的信息中获得有价值的真知灼见,同时真实记者写出来的稿子质量和可读程度也是机器人没法相比的。
❸更易形成信息茧房
人工智能技术将算法推荐作为信息推送发布的首选要素,而接受信息的用户则是之前算法根据回收到的阅读习惯、阅读兴趣等指标获得的。它将传统媒体中以“受众应该知道什么”的新闻编辑选取标准转换为“用户想知道什么”,而大量同质化的信息会形成“信息茧房”,使得受众无法知晓兴趣点之外的资讯,长此以往将陷入认知、交流的狭隘或封闭的状况。
人工智能技术给传媒业带来的影响是双重的,我们既已无法逃避技术,就只有提高我们对技术的理解与驾驭能力,才能避免未来成为机器的奴隶。未来新闻业的走向,仍然在人的手上。
参考文献[1]彭兰.更好的新闻业,还是更坏的新闻业?——人工智能时代传媒业的新挑战[J].中国出版,2017(24):3-8.
[2]梁智勇,郑俊婷.人工智能技术对新闻生产的影响与再造[J].中国记者,2016(11):72-75.
【杂志论文】智能推荐在新媒体内容分发中的应用
内容平台的竞争,进入了一个前所未有的阶段,竞争的是用户注意力,竞争的要素除了优质的内容、渠道,更是技术。
从PC互联网到移动互联网,这场竞争变得更加激烈。可移动的随身携带的智能手机使得用户随时可以在线,随时可以浏览内容。并且智能手机不如PC便于输入信息,这使得用户的行为模式也方式也发生了根本性的变化。同时,互联网技术也使得内容生产的便利程度不断提高、门槛不断降低,信息的生产速度也在指数级上升。在这样的背景下,智能推荐技术应运而生。为了最大程度留住用户的注意力,学者和工程师应用我们已知最复杂的数学和计算机工程知识,研发并应用推荐系统架构、算法。
推荐系统在内容和用户之间搭起了桥梁,其本质是一个虚拟的计算机智能体,这个智能体替真实的用户提前快速地“审阅”海量的信息库,把其挑选好的“优质”内容供给用户。
本文从智能推荐在媒体内容分发中的应用出发,简要介绍了推荐系统的技术架构、算法模块及其在媒体中的主要应用场景,并以智能推荐在社交媒体知乎和凤凰新闻中的具体应用为例,探讨算法如何全方位洞察用户特征,立体分发内容,精准传达内容价值。
2.推荐系统出现的背景
2.1受众媒介接触行为与内容分发模式变化
随着移动互联网用户数量的不断增长,人们接触信息的载体也快速地移动互联网化。作为传播媒介,手机改变了人们的媒介接触行为。截至2019年6月,我国网民规模达8.54亿,手机网民规模达8.47亿,我国网民使用手机上网的比例达99.1%。其中,网络新闻用户规模达6.86亿,手机网络新闻用户达6.60亿,网络新闻用户中使用手机的用户达96.21%;我国网民的人均每周上网时长为27.9小时,人均每天上网时长将近4小时[1]。与其他大众传媒相比,移动互联网彻底突破了“传-受”之间不均衡的状况,以超常的便捷性、实时性和互动性,为用户的信息获取方式带来了革命性改变[2]。
在移动互联网兴起之前,报纸、广播、电视等传统媒体是信息获取的主要渠道。移动互联网起步阶段,各大资讯APP出现,但早期的移动新闻端的内容以报纸内容为主体,采用的仍是传统媒体的内容分发模式,依赖于记者、编辑等的“把关”,移动用户仍然以被动的身份接收着“千人一面”的信息。
随后兴起的微博、微信等主流社交媒体在某种程度上打破了“千人一面”的局面。移动用户通过自己的社交结构选择自己想看的信息,并且利用关注的对象与好友所形成的人际关系网在海量信息中筛选和过滤内容[3],用户渴望发声、渴望创作的需求被满足。
现在,用户获取信息的渠道不计其数,短视频、长视频和信息流是主流的内容形态。以算法核心的智能推荐系统,彻底改变了媒体内容分发的模式。通过对用户画像的精准分析,算法能够从海量内容中过滤出用户喜欢的内容,实现用户与信息的高效连接,满足用户的多元化、个性化需求。
2.2新媒体为什么需要推荐系统
推荐系统解决的是用户和内容的关系。基于用户的兴趣偏好,系统把用户感兴趣的视频、资讯等推荐给用户,给用户带来沉浸式的体验,让用户感到满足。推荐系统主要解决两大问题:信息过载和长尾问题。一方面系统基于大量的用户行为数据来分析挖掘用户的偏好;另外一方面,基于内容数据及内容自身的特点,把内容和用户的兴趣进行匹配,从而达到个性化推荐。用户可以找到自己感兴趣的内容,平台上的其他内容也能有机会被用户看到。
推荐系统在今日头条的个性化服务及快速崛起中扮演着至关重要的角色。凭借着智能算法,今日头条快速抓取用户数据,精准分析用户需求,高效把关内容质量、进而实现个性化推荐,解决用户信息过载的问题。
当下,智能推荐已经成为内容分发不可或缺的技术。与传统的人工分发相比,智能推荐的优势很明显:千人千面的内容推荐、极高的内容分发效率、无人干预的自动化决策。智能推荐通过算法深度挖掘用户阅读兴趣,帮助用户快速发现感兴趣和高质量的信息,优化用户体验,减少用户浏览到重复或者厌恶的信息带来的不利影响。在分发效率上,中国传媒大学新媒体研究院院长赵子忠教授认为,人工给内容打标签并推送效率较低,算法技术可有效提升给信息分类和分发效率,能让有价值的内容匹配到更精准的用户[4]。凤凰新媒体客户端原来每日曝光的内容只有5000条左右,在使用智能推荐技术后,每天的曝光内容超过120万条;知乎也通过智能推荐技术将内容分发量提升200%,人均停留时长提升45%,点击率提升25%[5]。
3.智能推荐系统关键技术
推荐系统作为一种常见的信息过滤手段,能够在信息过载环境下通过分析用户和物品之间的历史交互数据,建立用户兴趣模型,从而发现用户感兴趣的信息,并将这些信息推荐给用户。接下来将从推荐系统的架构出发,介绍主要的推荐算法及常见的推荐系统应用场景,探究推荐系统背后的原理。
3.1推荐系统架构
通常来说,推荐的主要流程可分为召回、排序、重排、生成推荐列表这几部分。
当用户在页面发起请求时,系统就需要给该用户推荐他比较兴趣的内容。通常来说,候选集的量级十分庞大,从数百万到数百亿不等。在这种情况下,如果直接计算用户相似度或内容相似度的话,复杂度和计算成本非常高。于是,我们通过召回来完成对候选集的初筛。召回,就是从原始的数据集中,对内容进行粗选,选出数千内容。召回可以从用户所属的地域、人群、内容的热度等维度考虑。
召回完成后,就是排序阶段。排序就是把召回筛选出来的物料根据内容与用户兴趣的相关度,从高到低进行打分,打分最高的内容就是与用户兴趣最相关的内容。这个阶段通常运用大规模机器学习模型排序。
在排序完成后,通常还会进行重排序,最后生成推荐列表。在这个阶段,系统会基于场景进行去重、多样性控制、加权等操作,综合多种内容来源,保证内容的多样性和新鲜度,最终返回给用户推荐结果。
在实际的应用中,召回、排序、重排、生成推荐列表等每一阶段都比较复杂,用到的也不止一个模型,不同的模型用到的也可能是不同的算法和策略。
3.2推荐算法模块
推荐算法是整个推荐系统中最核心和关键的部分,在很大程度上决定了推荐系统类型和性能的优劣。推荐算法大致可分为基于流行度的算法、基于内容的算法、协同过滤算法、基于模型的算法。
基于流行度的算法,从字面意思就可以理解,比如我们常见的知乎热榜、微博热榜、新闻热榜等,根据用户浏览量、活跃度、分享率等热度来排序,将内容推荐给用户,这种算法适合新用户,但其存在的一个明显弊端就是无法给用户提供个性化推荐。
基于内容的算法,就是根据用户过去喜欢的物品,来给用户推荐与其过去喜欢的物品内容和特征相似的物品。基于内容的推荐可转化为计算用户兴趣特征向量和候选物品的特征向量之间的相似度。基于内容的推荐可以很好地解决冷启动问题,但可能会失去推荐内容的多样性。
协同过滤算法,是目前使用比较广泛的算法。协同过滤可分为基于用户的协同过滤和基于物品的协同过滤。基于用户的协同过滤的原理是,通过用户的浏览、消费等记录分析各个用户对物品的评价,据此计算出所有用户之间的相似度,选出与当前用户最相似的N个用户,将这N个用户评价较高但是当前用户又没有浏览过的物品推荐给当前用户。基于物品的协同过滤,首先会分析各个用户对物品的浏览记录,之后依据浏览记录计算各个物品之间的相似度,针对当前用户评分最高的物品,找出与之相似度最高的前N个物品,将这个N歌物品推荐给用户。二者原理相同。
基于模型的算法,如我们用机器学习的思想建模,常用的基于模型的算法有关联算法、聚类算法、分类算法、矩阵分解、神经网络。基于模型的算法快速、
准确,通常适用于新闻、广告等实时性要求比较高的业务推荐。为了让算法达到更好的效果,通常需要人为地做属性的组合和筛选,即特征工程。
在实际的业务应用中,由于业务的复杂性,很少会单独拿某一种算法来直接做推荐,而是融合多种算法,比如给不同的算法分配不同的权重,或者在不同的模块运用不同的算法完成计算,以实现最佳推荐。
3.3常见的推荐系统应用场景
推荐系统在新闻资讯中的应用场景主要有热门推荐、关联推荐、个性化推荐。
热门推荐基于全站内容的消费统计,进行全局、分频道或分地域的内容热门排行,该推荐常见于产品首页或内容详情页的“热门文章”、“排行榜”等模块。
图源自腾讯新闻客户端、知乎客户端、36氪客户端
关联推荐基于用户当前消费的内容,为用户推荐与当前内容相似的内容,从而提高产品的平均使用时长和人均阅读数,该推荐常见于产品内容详情页底部或侧边栏的“相关推荐”“看了还看”“买了还买”模块。
图源自36氪客户端
个性化推荐千人千面的推荐,基于机器学习和深度学习强大的意图识别能力,为每个用户在不同时间、不同地点推荐最适合的消费内容,该推荐常见于产品首页的“推荐”、“猜你喜欢”“发现”等模块。
图源自腾讯新闻客户端、知乎客户端、36氪客户端
4.智能推荐技术在新媒体内容分发中的实际应用
从主流媒体到社交媒体,智能推荐技术已经成为各个内容平台的标配。以人民日报为代表的主流媒体通过主流算法实现了传统媒体到智能媒体的战略转型[6]。人民日报借助人工智能打造了具备“主流价值观”的算法,让算法在提高内容分发效率的同时,净化媒体内容生态,传递社会主流价值观。接下来我们将从智能推荐技术在社交媒体知乎和凤凰新闻客户端中的实际应用出发,探讨算法如何提高内容分发的效率,以及如何为用户提供更加精准化、个性化的优质阅读体验。
4.1智能推荐技术在社交媒体知乎中的应用
知乎从问答起步,经过8年的发展,已经成为一个综合性全民知识内容平台,涵盖25万个话题,2700万个问题,1.2亿个回答,月浏览量达到290亿。[7]面对信息过载的挑战,知乎通过个性化推荐和搜索缩短用户和内容之间的距离,让用户在知乎摆脱信息过载带来的负担和压力。
4.1.1知乎的推荐系统架构
知乎的推荐系统架构
上图为知乎推荐页面的一次用户请求流程。在线上模块部分,主要有召回、排序和重排三个阶段,最终返回推荐结果,展示给用户内容。
召回阶段主要是将用户可能感兴趣的内容提取出来,其重点在于“全”。召回主要有两种方式,一是基于话题,即通过获取用户的关注数据,挖掘用户行为,二是基于内容,即协同过滤。排序阶段主要是对召回的内容进行打分,可以理解为用户的感兴趣程度,其重点在于“准”。排序可以是基于时间顺序、线性加权等规则,也可以是基于GDBT、DNN等模型。重排序阶段则出于产品或业务的考虑,对排序的内容进行重排,最终将推荐结果展示给用户。在重排序阶段,会对推荐物料做一些处理,如提权,即给视频进行一定的提权;隔离,相似内容隔开;强插,保证高质量的新内容流通。
以上就是知乎推荐页面的大致框架,接下来将针对排序模块做详细讲解。首先介绍一下推荐页Ranking的演进历程,如下图所示,Ranking的演进主要经历了四个阶段[8]。
知乎推荐页排序的演进历程
第一阶段按照时间排序,即按照用户的、动态、点击等行为产生的时间进行排序;但其存在的问题是没有考虑到亲密度或者感兴趣的程度。第二阶段采用EdgeRank算法,该算法借鉴了Facebook的EdgeRank算法,根据用户亲密度进行排序。第三阶段的FeedRanking采用GDBT模型。第四阶段的GlobalRanking采用深度学习模型、DNN等。
在模型的选择上,主要有以下方面的考量:(1)深度学习趋势;(2)能处理更高维度特征,如几十万话题量级;(3)非线性模型,不必做大量的特征组合;(4)使用GPU+HDFS结构,可以训练更多的样本。
4.1.2知乎智能推荐系统的特征工程
将特征按照内容进行分类,可分为如下三类:
第一类,用户画像特征,包含性别、年龄、职业等用户属性特征和用户点赞数、用户评论数等统计特征。
第二类,内容画像特征,包含文章长度、文章关键词等固有特征和文章历史点赞数、文章阅读数等统计特征。
第三类,用户与内容的交叉特征,如用用户感兴趣的话题和当前待推荐内容的话题交叉得到的特征。
至于特征的形式,主要包含以下几个方面:(1)数值特征:文章长度、点赞数、阅读数;(2)Onehot:如内容类型;(3)Multihot:内容多个话题id(4)Onehotwithvalue:用户对单类型内容的感兴趣程度;(5)Multihotwithvalue:用户对各话题的感兴趣程度。
在特征的设计原则上,首先要保证特征尽量全,从现有的数据中提取尽可能多的特征;其次,特征原始值全,比如加历史点击率特征的时候,可以把日活和点击都加进去;接着,覆盖率大,在设计时会去掉一些覆盖率很低的特征,这些特征影响影响范围小,大部分是缺失值;最后,线上线下特征一致,让覆盖率和取值分布尽可能接近。
未来的特征设计,将会从如下方向入手:一是显式交叉特征,DNN模型能学习特征的非线性能力,增加交叉特征可以降低模型搜索的空间,在训练数据一定的情况下可以提升效果,如用户的话题兴趣和当前话题的均值和最大值,效果提升明显;二是融入业务因素,把自己当做用户,考虑何种情况下点击率更高,何种内容更容易被用户点击,如视频在Wifi连接情况下下更容易被用户点击;三是数据挖掘特征,如内容Embedding特征。
4.1.3知乎推荐系统的CTR预估模型
在CTR预估问题上,之所以选择模型,原因如下:(1)推荐页排序目标是把用户推荐感兴趣的内容排在前面,可有两个学习目标:一是停留时长:适合用回归问题来解决,最后会偏向于长文章;二是点击率:二分类问题,知乎的问答一般不长,更加合适;(2)分类问题相比回归问题,目标类别少,相对准确率高;(3)分类问题场景业界应用较广,可交流空间大;(4)分类问题最后会输出一个概率分,方便与多目标结合。
之前的模型基于CTR为导向来进行设计的,如DNN和DeepFM模型,但是这样用户的负反馈较多,因为一些长尾内容或者大众化内容较多,影响用户的体验。之后设计的多目标模型,有基于点击率的模型,基于收藏率的模型,基于点赞率,基于评论率等,共8个目标。
从性能方面的考虑,知乎将底层权重被设置为共享,最后一层会根据不同的目标进行权重的训练。主要分为以下步骤:
(1)每个任务共享前面的几层权重,可以节省训练和预测的计算量;
(2)损失可以是几个任务的损失做简单线性加权;
(3)上线仍然要确定各个CTR的加权值,经验比较重要;
(4)上线后线上表现:点击率基本不变,而其他的几个指标,比如点赞、收藏大幅提升。
综合之前模型的优点,最终设计出的模型如下图所示。
4.2智能推荐技术在凤凰新闻中的应用
作为深耕新闻资讯领域的老牌媒体,凤凰新闻沉淀出海量的用户体量,在移动互联网新闻资讯行业日活过千万的平台中,凤凰新闻位列前三,人均单日使用时长超过三十分钟[9]。2016年,凤凰新闻便将智能算法与人工编辑强强联合,通过个性化推荐全方位洞察用户特征,立体分发内容,精准传达内容价值。
4.2.1凤凰新闻的智能推荐系统架构
下图为凤凰新闻的智能推荐系统的整体架构[10],整体基于召回和排序的框架,与业内相似。百万量级的内容池经过召回阶段的初筛、规则过滤、粗排序之后,可得到规模在几千量级的召回候选集;在精排阶段,经过多目标排序的优化,可将召回候选集规模降到几百量级;最后经过重排和人工规则的过滤,将数据集降到几十量级,推送给用户。
目前,凤凰新闻推荐系统精排序阶段的模型为Deep模型,如下图所示:
在上图所示的模型中,从下往上,最底层右侧为用户信息、交互信息与内容信息,左侧为用户历史的行为集合,上一层为数据嵌入层;第三层左侧为FM模型的池化(Pooling)层,用来捕捉低阶的交叉特征,中间的DNN模型捕捉高阶的变化,右侧的AttentionLayer用来捕捉Session序列,包括用户的行为序列;最上边一层是多目标学习,包括阅读、点赞、收藏、分享等一系列行为。根据业务需求可以调整不同指标的权重,有针对性地进行优化。
4.2.2凤凰新闻的特征工程和召回
从系统的角度出发,凤凰新闻的特征工程架构如下:
凤凰新闻的特征框架主要分为三部分,自下而上,分别为离线日志、实时日志、线上请求数据。中间层的特征框架是抽象出来的共有特征组件,其中包括线上请求、实时处理以及离线数据,从而保证了特征的一致性。换言之,凤凰新闻离线的模型训练与线上的模型预估使用的是同样的特征数据。最上层为数据存储层,离线日志会存到Hive中,而实时的数据则会存到Redis集群中。整个特征框架的大致流程是,线上请求通过特征框架的规范化,去请求模型,最后通过模型得到排序的结果。
从特征分类的角度出发,凤凰新闻的特征工程有可作如下划分:
用户画像主要指用户的人口属性、兴趣属性、层次以及行为偏好;内容画像指针对内容的分类、自然语言处理、内容统计指标、文本质量分数、向量稠密表示等;请求上下文指时间、天气、地域、手机型号、品牌等客观环境的描述。特征和特征之间会进行一定的交叉,赋予该特征更多的含义。如果将用户画像与请求的上下文进行特征的交叉,则会得到用户常驻地、用户的兴趣变化、用户在不同场景下的行为、手机品牌对用户的影响等。这些特征的构建对推荐系统的解释性提供了强有力的支撑。
在召回部分,凤凰新闻使用了多路召回的办法。以利用FFM模型进行召回为例,其优势很明显:可以很好地结合业务定制优化目标,引导向量学习;可以在在一定程度上解决内容冷启动的问题;可以对新内容进行召回,在保证召回结果个性化的同时,还可以给用户带来惊喜感;此外,FFM模型可以避免传统协同过滤带来的“马太效应”。
4.2.3凤凰新闻在提升用户体验上的实践
“标题党”的出现严重影响着用户的阅读体验,用户跳出率升高,影响用户留存。在鉴别“标题党”方面,凤凰新闻主要从三个角度入手:(1)从内容特征入手,人为标记初始训练数据,后续通过自然语言处理建模;(2)通过用户举报去积累数据;(3)从数据特征入手,使用用户的评论等数据进行甄别。
从内容的动态特征,即内容的消费数据入手,内容消费可按照时长划分为6个维度,转化率可划分为5个百分维度,阅读完成比可划分5个百分维度,相互组合共有150维的特征,文章的归属为其中的一类组合作为文章的动态特征,比如“时长0-30s,阅读比10-30%,转化15%-20%”。
经过大量统计和对比发现,“标题党”类的内容会存在高转化率、低时长、低完成比的性质;相反,中等转化率、高时长、高完成比的内容一般为优质深度类的内容。通过线上用户真实反馈加以验证后,在精排模型以及重排模型中加入该特征体系,有效抑制用户对分类下的“标题党”,从而优化用户阅读体验。在实际的A/B测试上,也证明加入这些特征后对用户的留存和体验有较明显的提升。
5.总结
智能推荐技术已成为头部新媒体平台的中坚力量。凭借技术驱动,头部新媒体平台快速占领了内容分发的山头。放眼整个媒体行业,腰部的媒体平台仍然处于艰难的转型期。其中,技术人员的匮乏是这些平台应用智能推荐技术的主要阻碍因素,一些媒体平台团队内的技术人员甚至不足10人。另外一个现象是超过三分之二的中长尾平台会选择与第三方技术供应商合作[11]。随着技术的不断发展变革,我们相信,人工智能在未来将触及媒体的更多角落,帮助更多的媒体实现智能化转型,让智能推荐成为各个媒体的“常规武器”。
引用来源
[1]CNNIC.第44次中国互联网络发展状况统计报告[R].2019.
[2]何其聪,喻国明.移动互联用户的媒介接触:行为特征及研究范式[J].2014(12).
[3]靖鸣,管舒婷.智能时代算法型内容分发的问题与对策.新闻爱好者[J].2019(5).
[4]人民日报海外网.专家热议智能推荐,算法可以打破茧房壁垒.
[5]CSDN.人工智能技术在内容行业的应用:AI对中长尾内容平台还是奢侈品.
[6]腾讯财经.第四范式与人民日报签约,共同打造新媒体主流算法
[7]环球网.知乎CTO李大海:AI是应对内容消费升级的关键武器.
[8]单厚智.知乎推荐页Ranking经验分享.
[9]艾瑞.2019中国移动端新闻资讯营销策略研究报告[R].2019.
[10]马迪.信息流推荐在凤凰新闻的业务实践.
[11]CSDN.人工智能技术在内容行业的应用:AI对中长尾内容平台还是奢侈品.返回搜狐,查看更多