博舍

2023年10个最棒的AI音乐创作工具 人工智能音乐创作知识图谱大全

2023年10个最棒的AI音乐创作工具

AIVA

自2016年AIVA科技公司成立以来,其团队致力于开发一款可以为广告、视频游戏或电影创作情景配乐的AI工具。不久之后,公司的AI发行了它的第一个作品——《Opus1forPianoSolo》,在随后的几年里,该AI又发布了一张专辑,并为一个视频游戏作曲。除了允许用户借助AI从新开始创作音乐外,AIVA还可以被用来制作现有歌曲的变体。这款AI音乐创作工具帮助了内容生产方,让他们的工作变得更加容易,因为它免除了繁杂的音乐授权许可程序。

Jukedeck

价格:有免费版本,付费价格为每次下载0.99美元

Jukedeck初创公司开发的AI创作工具与Amper相似,因为他们都依赖人工神经网络来分析音乐数据,然后人工智能使用这些数据来学习如何创作原创音乐。Jukedeck生成的每个曲目都可以进行编辑,用户可以更改其长度或节奏。如果用户不想拥有Jukedeck创作出的作品的版权,那他们可以使用其免费版本生成音乐,然后每次以0.99美元的价格获得该音乐的歌曲授权许可即可。

EcrettMusic

Melodrive

价格:免费

Melodrive是最早能够实时创作具有明显感情色彩和独特音乐的AI音乐创作工具。Melodrive可以通过适应媒体环境生成音乐,目的是匹配视频的情绪和风格。值得注意的是,Melodrive仍在开发中,随着时间的推移,它的音乐创作能力将变得比现在更加精细。目前,Melodrive的Lite和Indie版本可以免费下载。

ORBComposer

价格:149美元

ORBComposer无法自动生成音乐,它需要根据用户的选择来创建音乐。因此用户需要知道基本的作曲规则才能使用ORBComposer。该工具拥有丰富的和弦库,其中包含了几乎所有流行音乐中使用的和弦进行。它针对的用户是那些有兴趣尝试用人工智能创作音乐和发现新音乐风格的音乐人。

AmadeusCode

价格:免费,但是有app内购选项

不管是专业音乐人还是音乐爱好者都可以使用该工具在几分钟内创作出新的旋律。AmadeusCode使用的AI引擎包含了一些有史以来最著名歌曲的和弦以及音阶,它允许用户通过该工具来创建新的音乐作品结构。此外,用户还可以使用手势来创建新歌曲或重新创建以前创作的歌曲的特定片段。AmadeusCode允许用户将音频和MIDI文件导出到音频编辑软件中,但用户仍需要付费购买想要使用的音乐。

Humtap

价格:免费

Humtap帮助音乐人捕捉记录灵感片段。因为用户只需哼唱一段旋律,Humtap就会使用不同的乐器自动生成一整首歌曲。更重要的是,歌曲的节奏也可以通过简单的点击生成。音乐生成后,用户可以继续添加人声。Humptap还具有视频制作功能,因此用户可以为使用此工具创作的所有歌曲创建视频。使用Humtap的音乐作曲家生成的所有曲目和视频都可以保存到手机中,但用户不能直接通过应用程序将创作内容共享到社交媒体上。

Muzeek

Muzeek是为用户想在社交媒体上分享的视频创作背景音乐的最佳工具之一。Muzeek使用人工智能算法分析用户的视频,并创建完全符合视频节奏的背景音乐。所有内容创作者,包括在线营销机构或视频游戏开发商,都可以依靠Muzeek创作出高质量的音乐作品。此外,Muzeek还可以分析视频的原始音频并从中创建字幕或自动调整音量。

Brain.fm

Brain.fm平台的核心哲学就是——音乐能使人们的大脑更具生产力。Brain.fm开发团队由科学家、音乐家和工程师组成。他们使用AI来产生音乐,旨在让用户的大脑更具生产力和专注力。开发团队声称,用他们的AI创作工具创作的音乐只需10到15分钟就能帮助用户提高生产力和专注力。但是,Brain.fm本身并不能帮助用户创作音乐。这个平台适合那些在工作中花费大量时间、在执行重要任务时难以保持注意力集中的人。

投融资|周追踪150万首未签约歌曲,这家AI驱动的独立唱片公司完成种子轮融资

如此桀骜不驯的名字显示了公司的野心,以及公司在人工智能辅助下,面对传统唱片公司竞争时的底气。

创业观察|一分钟能“写”一首歌?这家公司要让AI成为音乐人的创作好帮手

AI音乐的多元应用在中国进一步落地。返回搜狐,查看更多

知识图谱

汽车知识图谱驱动业务技术变革

针对汽车这种属性很多的实体领域,汽车知识图谱可以有非常好的应用。将不同品牌不同型号的汽车产品信息整合,为消费者提供全面的导购地图。

在售前场景中,消费者经常关心的询价、比价、保养、配置参数、性能比较等问题,同时,能够给用户引导推荐指定车型的突出特性,比如科技、安全性等。我们通过构建汽车领域的知识图谱,搭建基于知识图谱的多轮对话系统。可以分析用户话语中的实体和关系,根据实体和关系进行知识图谱的查询和推理,根据结果选择相应的对话策略。

人工智能2分钟写一首歌,音乐人如何竞争

新音乐产业观察原创文章,未经授权谢绝转载

作者|亿谦

2020年,人工智能在音乐领域的应用前所未有的活跃:国内外的音乐人朱婧汐、马伯骞、Grimes等先后和AI合作发布了歌曲、AI驱动的虚拟DJ出道、人工智能歌曲大赛举办、韩国SM公司推出含AI概念的女团aespa、19万人在网上观看了“AI埃米纳姆”Diss马克·扎克伯格……

前几天,网易才发布了一首AI歌曲《醒来》,AI包办了词、曲、编、唱。

现在,音乐人们为自己一个人就是一个队伍为荣,很快,我们感受到的或许是,一个AI就是一个队伍。

一个AI甚至可能是一个公司:据网易科技的报道,网易雷火自研的编曲算法能在15-30秒内生成一首对标人编1-1.5万元左右的出版级编曲,已具有工业化大批量生产的能力。

当AI具有了“工业化大批量生产”的能力,音乐行业或许真的又要进入了一个新时代了。音乐创作从过去的人和人之间的竞争,变成人机混战。

今年的赛博味怎么那么浓?

如果用两个字来形容2020年,“赛博”(Cyber)或许是一个备选。作为前缀,赛博代表了网络化的世界,而在疫情肆虐的2020年,随着线下活动的停摆,一切都开始变得赛博化。

“赛博”一词的流行,也跟“赛博朋克”有关。基于“低端生活与高等科技的结合”背景建构的“赛博朋克文化”愈发流行,而一款叫《赛博朋克2077》的游戏,在2020年底,将这种亚文化的热度推到了制高点。

不只是游戏,2020年的音乐圈看起来也是很赛博的一年。TravisScott在游戏里举办巡演、机器人Shimon和人类合作发行了个人专辑、Grimes和AI结合推出了一个安眠APP、韩国SM娱乐的新女团aespa由真人和AI驱动的虚拟形象联合编队、朱婧汐和微软小冰联合创作发行了歌曲《HOPE》、小冰还成为了上海音乐学院的荣誉毕业生……

2020年里,人和机器之间的关系,发生着种种微妙的变化。这些变化,有些是肉眼可见的,有些则是潜移默化的。

比如各大音乐平台的算法推荐,就在潜移默化的改变着我们的音乐欣赏习惯。而另一种潜移默化则可能决定着很音乐人们的“命运”。据外媒报道,2020年,华纳音乐通过AI驱动的大数据分析系统签下的新人数量是2019年的两倍。

或许,你现在喜欢的一位欧美歌手里,就有人是AI发掘的。而年轻的音乐产业观察者CherieHu在网上发了这样一张图,配文说:音乐产业的未来。

机器的音乐创作水平发展到什么程度了?

一个月前,网上有人发布了一首挤兑脸书老板马克·扎克伯格(MarkZuckerberg)的歌曲,说是AI模仿说唱天王埃米纳姆(Eminem)的风格创作的。

据发布者说,他们只是键入了“MarkZuckerbergDissintheStyleofEminem”(用埃米纳姆的方式挤兑马克·扎克伯格),然后机器就完成了填词,然后,一个专门从事深度伪造(Deepfake)歌曲的账号,借助谷歌的人工智能合成出人声。

网友们纷纷表示,声音以假乱真,有网友留言,跪求创作一整张假埃米纳姆的专辑。

人工智能创作音乐的故事,最早可以追溯到1950年代。1951年,“人工智能之父”阿兰·图灵就尝试过用电脑生成音乐并录制下来,2016年,新西兰科学家复原了图灵的录音。

如果说早些年,人工智能的创作主要集中在纯乐曲和氛围音乐,那么最近两年,AI在作曲、填词和演唱上全面开花,电音、摇滚、说唱,各种曲风手到擒来。

今年4月,OpenAI在SoundCloud上发布了大量的作品,其中有Nas风格的说唱,也有KatyPerry风格的流行歌。

今年5月举办的“人工智能歌曲创作大赛”(AISongContest)上,全球13个人工智能团队展示了各自的作品,参与歌曲评审的专家认为“其中的一些歌曲拿去参加欧洲电视网歌唱大赛完全没问题。”

“人工智能歌曲创作大赛”冠军:《BeautifulTheWorld》

今年7月,微软小冰从上海音乐学院“毕业”,相关报道称,小冰目前已经形成了流行、古风、民谣等几个大的音乐风格,作曲水平逐渐达到和人类相似的稳定水准。

韩国音乐人和人工智能团队创业者ParkChan-jae不久前接受《韩国时报》采访时称,“如果说2018年,AI的音乐创作水平只是初中生水平,那么如今AI的音乐创作水平相当于学过半年音乐的高中生。”

与其害怕AI,不如学会共处

凡事都有两面,AI也不例外。就连一向乐于拥抱新科技的音乐Grimes,在跟AI合作发布歌曲的同时,也表达了自己的担忧。

不久前,Grimes和一家人工智能团队合作,推出了一款AI驱动的安眠APP,在宣传这款APP的同时,Grimes称,“虽然我很感谢新技术帮我创作音乐,但我真的担心AI超过人类让音乐人被淘汰,这是不可避免的事情。”

Grimes的担心不是没有道理的。据报道,微软小冰创作一首歌只需要2分钟,而上文也提到,网易雷火自研的编曲算法能在15-30秒内生成一首对标人编1-1.5万元左右的出版级编曲。而在国外,一个AI系统一天能生产4000-5000首歌曲。

单纯从生产效率上说,人类很难跟AI竞争。

也有观点认为,AI的作品没有“人性”,不能打动人。不过,ParkChan-jae对此有不同的意见。ParkChan-jae认为,AI完全可以模拟人类创作,AI创作出能打动人的作品一点问题没有。

但是,这不是问题的关键,问题在于,当下的流行歌曲过于雷同。ParkChan-jae举了K-Pop的例子。在他看来,当代的K-Pop歌曲远离音乐本质:“专业音乐人和制作人只关心排行榜,不关心音乐的独创性。最大的受害者只是听众。”

ParkChan-jae认为,AI可以帮助真正具有个性的音乐人实现创造力的最大化。“AI并不会取代音乐人,但是会缩小音乐人和非音乐人之间的差别。AI会是一个工具和合作者。”

对此,我们或许可以理解为,一个真正有独创性的音乐人不但不会被AI取代,AI还可以成为其独创性的延伸。但是,对于那些工业化流水线生产的音乐,AI的替代性是显而易见的,而且,已经开始影响音乐产业了。

在《Nylon》的一篇报道中,一位开音乐公司的老板称,他公司出品的“罐头音乐”(productionmusic,视频、广告等使用的背景音乐)大都用AI创作了。而且,在他看来,“罐头音乐”最终都会不会再需要人来创作。

人类历史上每一次产业革命,都必然会影响到产业中的人。产业中才华横溢、特立独行的“天才”毕竟是少数,更多的音乐人不免要遇到AI的挑战。很快,人机之间,有交互,有合作,也会有“竞争”。学会跟AI共处,将是所有人的一大课题。

-全文完-

人工智能“作品”,著作权谁属

原标题:人工智能“作品”,著作权谁属

树影压在秋天的报纸上/中间隔着一片梦幻的海洋/我凝视着一池湖水的天空……

这么优美的诗句不是出自哪个诗人之手,而是来自人工智能――微软“小冰”。2017年5月,“小冰”创作的诗集《阳光失了玻璃窗》正式出版,这部诗集是“小冰”在学习了519位诗人的现代诗、训练超过10000次后创作完成的。

除了微软“小冰”,其他公司也开发了众多人工智能产品用于创作各类文学和艺术“作品”。例如,谷歌开发的人工智能DeepDream可以生成绘画,且所生成的画作已经成功拍卖;腾讯开发的DreamWriter机器人可以根据算法自动生成新闻稿件,并及时推送给用户。这些由人工智能创作的成果从外观形式来看,与人类创作的成果没有任何区别,而且也很难被察觉并非由人类所作。可以说,与以往技术创新相比,人工智能技术对著作权法提出的挑战是最根本,也是最全面的――

一是人工智能的主体资格问题。根据我国著作权法的规定,作者包括自然人作者以及法人作者;前者是指创作作品的公民,后者是指作品在由法人主持,代表法人意志创作,并由法人承担责任时,将法人视为作者。要承认人工智能是作者,事实上也就意味着要在著作权法上创设一种新的独立法律主体,这将遇到极大的法律和伦理障碍,在相当长的一段时间内恐怕都难以实现。

二是人工智能生成物的作品资格问题。著作权法基本理论认为:作品应当是人类的智力成果,也只有人的智力活动才能被称为创作。在人工智能生成物的著作权问题引起广泛关注之前,法学界曾讨论过动物产生的内容可否构成作品的问题。例如:在美国,一只黑猕猴使用摄影师的相机拍摄了几张自拍照,其著作权问题甚至引发了两起诉讼。为此,美国版权局还专门发布相关文件,强调只有人类创作的作品才受保护。有学者认为,人工智能生成物并非人类作者的智力成果,因此不构成作品。也有学者认为,人工智能生成物是由人类作者设计的作品生成软件产生的成果,实际上是人机合作的智力成果,并没有违背著作权法的人格主义基础。

三是人工智能生成物的权利归属问题。目前提出的方案主要有3种。第一种方案是承认人工智能生成物是作品,但是不给予保护,将其投入公有领域。主要理由是著作权法的立法目的在于鼓励作品的创作和传播,而机器无须激励。第二种方案是创设一种新的邻接权制度,以区分人工智能生成的作品与人类创作的作品。第三种方案是在现行著作权法框架下,通过法律解释的方式作出适当的法律安排。至于是将著作权归属于人工智能的所有者、研发者还是使用者,意见尚未统一。

四是人工智能生成物的侵权问题。人工智能在进行“机器学习”过程中,需要使用大量已有作品。例如,“小冰”是在学习了众多现代诗之后创作的诗集,其中必然会有一些作品仍然处于著作权保护期内。那么,在未经作者授权的情况下,对其作品进行商业性利用是否构成侵权?普遍观点认为,为了促进人工智能发展,应当将“机器学习”过程中使用他人作品的行为作为例外处理。

对于上述问题的争论,以往都处于纯理论层面。让人振奋的是,在今年4月26日世界知识产权日当天,北京互联网法院对国内首例人工智能作品争议案作出了一审判决,为理论探讨提供了新鲜的实践素材。

对于主体资格问题,北京互联网法院认为,尽管随着科学技术的发展,人工智能生成物在内容、形态,甚至表达方式上日趋接近自然人,但根据现实的科技及产业发展水平,尚不宜在法律主体方面予以突破。就人工智能生成物可否构成作品问题,法院强调指出:虽然由人工智能生成的分析报告具有独创性,但是自然人创作仍应是作品的必要条件。在该案中,分析报告既不是由人工智能的研发者(所有者)创作,因为其并未输入关键词来启动程序;也不是人工智能的使用者创作,因为该报告并未传递其思想、感情。分析报告是人工智能利用输入的关键词与算法、规则和模板结合形成的,应当被认定为是由人工智能“创作”的。然而,构成作品的前提条件必须是自然人创作,因此,该分析报告不是著作权法意义上的作品。不过,法院也认为,应给予人工智能生成物以一定的法律保护,因为其具备传播价值。

笔者认为,对于人工智能生成物的著作权定性这一极具争议的问题,作为社会稳定器的法院采取相对保守、平衡的立场,是合适的。需要指出的是,如果人工智能生成物不被承认是作品,相关主体出于利益最大化的考量,很有可能会采取隐瞒相关成果是人工智能创作的事实,因为从外观形式上无法区分文学艺术作品究竟是人类还是人工智能创作。

有关人工智能生成物的著作权问题,有的国家已积累了一些经验。英国《1988年版权、外观设计和专利法案》规定,对于计算机生成的文字、戏剧、音乐或艺术作品而言,作者应是对该作品的创作进行必要安排的人。对计算机生成作品进行“必要安排”的人,可能包括人工智能的投资者、程序员、使用者,也可能是上述主体共同构成。因此该条款具有一定的开放性,赋予了法院较大的自由裁量权。

从历史来看,知识产权法领域一些重大的理论突破与制度创新,都是通过法院经由个案,通过不同观点的交锋、碰撞,甚至结论“反转”,最终达成共识来推动的。笔者相信,人工智能生成物的法律性质问题也将如此。未来,将有更多相关争议进入法院,让业界有更多的机会展开讨论,毕竟“真理越辩越明”。

(作者:万勇,系中国人民大学法学院教授)

(责编:龚霏菲、王珩)

分享让更多人看到

基于知识图谱的多模内容创作技术

导读:由于大数据时代的发展,知识呈指数级增长,而知识图谱技术又在近年来逐步火热,因此诞生了利用知识图谱技术进行智能创作的新想法。本文将分享基于知识图谱的多模内容创作技术及应用。主要包括以下四大部分:

百度知识图谱概览百度智能创作全景多模内容创作技术落地产品及应用案例

分享嘉宾|卞东海百度高级研发工程师编辑整理|蒋郭鑫河海大学出品社区|DataFun

01/百度知识图谱概览

首先介绍一下百度知识图谱的概览。

知识图谱的基本结构

知识图谱以结构化的知识来描述客观世界的概念、实体及其属性和关系。从上图例子中我们可以看到,和梁启超相关的一些概念和关系,比如教育家和政治家是和梁启超相关的一些身份概念,而梁启超和梁思成是父子的关系。

百度知识图谱的发展历程

回顾百度知识图谱在过去十多年的主线工作和发展历程,主要经历了四个阶段:

第一个阶段在2013年以前的Pre-KG阶段,这也是学界和业界知识图谱发展的初级阶段,百度的知识图谱立项并开始运用于百度知识搜索的知心产品;

第二阶段在2014年至2015年,是知识图谱方法论和架构逐渐成型的阶段,我们建立了垂类的领域知识库,并规模化地应用于搜索的各类产品之中;

第三个阶段在2016年至2017年,逐渐地深入建设通用知识图谱相关的架构、算法和机制,开始全面应用于搜索、金融、客服、商业等各类产品线;

第四个阶段在2018年以后,这一阶段,技术建设的重点在于多元知识图谱的异构互联、图谱的主动输入和自学习、多媒体知识、复杂知识以及行业知识图谱的理解与构建等。

百度知识图谱的技术视图

上图为百度知识图谱技术视图,首先是知识获取技术,即各种信息抽取的技术;接下来是知识整合技术,用于多元知识的融合;然后是知识补全和扩展的技术,用于不断地丰富知识图谱的内容;知识表示学习、知识推理与计算等认知技术主要运用在搜索、推荐问答等业务当中;最后,收录模型可以持续高效地更新知识。最下面是支撑上面所有知识发现、组织与获取应用能力的架构和平台。

通用知识图谱应用

我们的通用知识图谱目前在百度的核心业务中广泛地应用,比如在搜索业务中支持了智能搜索,可以直接返回问题的答案。在信息流的推荐业务中,基于各类图谱去提升推荐的质量。在DuerOS等智能对话产品上,提供了大量优质的内容。

行业知识图谱应用

我们的行业知识图谱目前赋能了许多行业领域:

首先是基于海量专业知识构建的医疗知识图谱,其包含了千万级的医学事实,并开发了基于专业医疗知识的医疗计算认知引擎,在多家三甲医院上线使用;

其次是智慧司法,我们完成了标准、精细、体系化的类案知识体系的构建,类案推荐效果显著,在法案实际的使用当中,结案的效率提高了一倍以上;

最后是智能客服,我们引入知识图谱,沉淀客服知识和信息资源,通过理解客户的意图,支持客服坐席的知识提示,人工通话的接单量降低了70%。

02/百度智能创作全景内容创作挑战

创作,是对人类现有知识和素材的组织和再创造。在内容创作领域,像媒体、金融、政企都有大量的创作需求,比如新闻稿件、金融报告、公司公文等。在创作时一般都有以下四个痛点:

第一是如何从海量信息中获取到有价值的内容;

第二是时效性要足够高,像新闻稿件尤其是热门事件的新闻,肯定是越快越好;

第三是要把控内容的质量,避免出现错误;

第四是内容覆盖要广泛,包括长尾和冷门领域。

百度大脑智能创作平台全景图

针对上述问题解决方案,可以简单总结为百度大脑智能创作平台全景图,基于NLP、知识图谱、视觉、语音的技术和数据,我们研发了智能自动创作和智能辅助创作的技术。在应用层提供包括新闻线索、热点分析、智能写稿、视频创作等核心的功能,可以满足各个行业创作的需求。下面会详细介绍每个功能的核心点:

(1)自动创作:让作者从重复工作中解放

首先是智能自动创作,通过数据加自动写作引擎的方式,实时大量地生成覆盖多个领域的资讯,让创作者从重复的工作中得到解放。像天气文章,每天都需要在规定的时间内高效地发布数千篇文章,单纯人工很难完成这些工作。

但其实机器并不能够完全取代人类作者,机器的优势在于它的高时效性、丰富的素材和大数据分析能力,而人工撰稿在内容的深度、精彩的程度、题材的多样上远胜于机器,所以我们的思路是让机器与创作者去分工协作。

(2)辅助创作:全流程智能辅助,全能赋能内容生产

于是,我们同样打造了智能辅助创造的能力,从创作前的素材的采集、理解,给作者提供热点的发现、热词分析的能力,到创作中的素材的推荐、编排,再到创作后的质量检测、提升,全流程的提供辅助创作的功能。自动和辅助的相结合,可以实现效率与质量的双收。

03/多模内容创作技术

在介绍核心技术前,先看下机器创作和人工创作的区别,以媒体为例,创作过程一般有五个部分,分别是策、采、编、审、发。具体来讲,策是策划、要写什么,采是根据要写的主题去找相关的素材,编则是根据找到的素材写文章或制作视频,然后是审核和发布。机器创作分别扮演着不同的角色,比如自动创作这个线条,其主要侧重点是在于采和编辑;而辅助创作这个线条,侧重点就在于采集、策划和审。

自动图文创作

从我们目前已发布的文章类型来划分,这里列出了六大类常见的自动创作出的文章:

第一类是计算/数值类,主要场景是天气、体育、股市等;

第二类是聚合类,是通过素材不同纬度的理解,将相关的素材组织成文;

第三类是浓缩类,就是将数千字的内容进行篇章级的摘要,同时要符合原内容的篇章逻辑;

第四类是事件类,主要是对同一个主题事件的不同阶段进行回顾;

第五类是分析类,主要是对同一个事件进行多维度分析其利弊,总结成文;

第六类是视频转写,它将视频内容进行总结,从而形成一篇文章。

那么机器到底是怎么创作的呢?一般来说要包括四步:写作触发、文章生产、质量控制和文章发布阶段。

这里重点是写作触发和文章生成阶段,写作触发有两种方式,一种是主动的,比如话题挖掘,我们要找到话题之后才会写作;另外一种是被动的,比如我们每天都能看到的大量的天气、股市预警信息自动的更新。文章生成是自动创作的核心,机器的写作的时候其实和人的写作思路差不多,首先我们需要有一个宏观的规划,其次是每一段要写什么,要用什么样的方式、什么样的数据这些,进行微观的规划,最后表层实现就是要对上面规划后的类似写作模板一样的东西进行具体的实现。

下面来看一下图文创作实现这些能力的关键技术概览:

在技术概览当中,我们可以看到无论是写作触发,还是文章生成,底层都需要依赖于知识图谱作为输入,上层比较依赖于两个重要的技术方向,一个是理解,另外一个是生成。

下面分别介绍具体关键技术:

(1)通用知识图谱

第一个比较关键技术就是通用知识图谱,通用知识图谱里面有非常多的有价值的信息。以生成明星CP类的文章为例,我们需要从图谱中去获取明星之前的关系作为文章内容的切入点。比如,邓超和孙俪,通过图谱机器可以知道他们是夫妻的关系;如果想在文章的正文当中插入一些关于邓超的介绍,可以直接在图谱中获取邓超相关的个人公开的信息。所以知识图谱在智能创作中扮演着核心的角色,贯穿全流程。

(2)事件图谱

我们的世界无时无刻不发生着事件、新闻资讯,绝大部分也都会包含事件。人的一些属性或者关系可能会随着时间发生变化,比如美国总统是谁这个问题,在2021年1月20号之前是特朗普,之后则变为了拜登。如果只是使用通用知识图谱,并不能得到这些动态变化的信息,而事件图谱可以很好地补充这一缺陷。

(3)话题挖掘

有了图谱作为基础,接下来就可以从全网域的数据中获取一些相关的咨询信息;然后我们从通用的知识图谱当中获取到对应的资讯中的实体概念,从事件图谱当中获取与资讯对应的的热门事件;接着再对这些概念和资讯进行进一步的分析和理解;最后依据写作类型,分别确定哪些话题可用,就可以得到我们的写作话题。图上的例子中,像“乌克兰”就是一个比较泛的话题,而“乌克兰局势”相对就属于比较好的话题。

(4)素材组织

有了话题,接下来就是如何去组织文章的素材,在传统的做法当中,当挖掘出写作的主题之后,一般是直接检索关联的素材,嵌入模板就结束了,这种方案是比较浅层的,整体的文章逻辑非常零散。在我们的做法中,首先对素材包含的知识进行分析整合,形成一个体系化的知识信息,在生成文章时,将该知识信息结合图谱中其他的相关联的知识同时作为输入,这样生成的文章内容上会更加丰富,文章的整体性逻辑会更强。

(5)文本生成

文本生成是自然语言生成下面的一个子任务,有很多种类型,从单模态到多模态,这里我们常用的有三大类,分别是文本到文本生成、数据到文本生成、多模到文本生成。针对不同的场景会使用不同的技术方案,包括模型、规则、模板等。

下面看不同的生成任务具体是如何实现的。

文本到文本生成,以摘要为例,摘要生成一般有两种方案,一种是抽取式,另外一种是生成式。在真实场景中,我们主要还是使用抽取式的方法。

除了算法本身,其实还要辅助很多的规则,比如说摘要开头的句子不太合适,在这种情况我们会使用词典来进行过滤。

另外,在一些场景下比如聚类的文章,考虑到生成文章的多样性,我们也会同时使用生成式的方法。

有了图谱信息和摘要生成技术,就可以做很多类型的文章了,比如上图的文章,它是一个事件脉络追溯的文章,把中国的第一辆火星车“祝融号”的来龙去脉进行了一个非常详细的盘点。

数据到文本生成,主要用在计算数值类的快讯文章,核心问题是如何去构建文章的模板。一般有三种方法:第一种是人工去构建初始的模板;第二种是从网上找到大量训练的数据,从中挖掘出对应的KV对信息,然后通过bootstrap的方式去训练;第三种是根据输入的KV对去直接生成,这种方案在短文案生成上的效果较好,但是在文章级的长文本生成上,目前还有很多问题。所以我们还是主要使用前两种方式去生成文章。

视频到文本的生成方式,应用场景有很多,比如大家比较熟悉的视频会议记录,就是一种,当然了它们是不同的研究范畴。对于视频转图文,我们的主要目标是希望生成的文章能够很好地表达视频的内容。

我们目前的方法当中会同时使用模型和规则。首先是做视频的理解,得到视频的一些感知数据,像ocr、asr相关的信息,为了确保文章的准确率,我们会使用ocr和asr做一个双向的校验,对输出的字幕会使用Ernie进行分类,最后结合每一段去选择对应的关键帧作为图片。有了文本和对应的关键帧作为配图,就可以按照这种时间的逻辑顺序生成一篇视频转写的文章。

(6)配图生成

除了文本生成,我们还探索了文本到图片生成,这是一个非常有应用价值的技术,它除了可以生成各种类型的图片,还能够帮助公司去避免图片版权相关的一些问题。对这方面技术了解的同学,应该都看过DALL·E的生成效果,可以说是非常惊艳的,但仍存在一些问题,比如图片分辨率较小,图片质量不是特别高,所以是不可以直接落地使用的。另外,在真实的场景下,作者检索图片时,输入的往往都是概念,而DALL·E更偏向于对确定性实体进行细节性描述。所以我们的做法是,首先使用VQ-GAN代替了DALL·E的VQ-VAE,并且提高了图片生成的分辨率。上图多肉植物图片,可以看到,质量是非常高的;然后结合知识图谱让模型学习到更多的和抽象概念相关的知识,保证模型能够理解人类常识性的概念,在右上角这个示例中,可以看到,当输入的是“森林之王”时,模型依然可以很好地生成对应的实体,而且质量上相对也更好。

自动视频创作

除了图文创作,我们在视频创作上也进行了非常多的工作,在公司内部和外部的合作当中也落地了很多的应用。对于视频的类型,我们一般从输入数据的类型来进行划分,可以分为三大类,分别是:视频到视频、文章到视频和数据到视频。

视频跟图文创作相比,最不一样的地方就是多了一个视频渲染的流程,视频渲染是非常繁琐耗时的事情,尤其是后台自动化的渲染;所以我们针对创作的场景构建了我们自己的视频生成引擎,它的底层主要是基于FFMPEG。我们把常用的一些操作都封装为渲染函数,然后根据输入和模板进行视频的高效生产。

视频创作的一个关键技术是“视频理解图谱”,在以视频作为输入的场景下(也就是video2video),对视频素材的理解是进行后续生成的第一步。比如上图左上角给出的视频,如果从标题看,我们几乎得不到任何有关该视频的具体信息,但是我们通过对视频内容的感知,可以知道里面出现的演员有哪些,出现了哪些实体、地点;然后通过和知识子图进行关联就可以得到对应的影视剧的子图,对子图再进行实体地点的计算推理,就可以得到其对应的影视剧信息,后续使用视频素材就会非常容易。

另外一个关键技术是视频场景识别,其在学界的研究对象主要是“时序动作提名”。在自动创作的时候,我们会从挖掘的信息中获取用户最喜欢观看的一些视频场景,然后对这些场景进行抽象。比如我们发现像亲吻、扣篮、打斗等场景都是用户喜欢的类型。因此,我们就基于时序动作提名的算法来进行包含该动作场景的一些识别和检测。当识别出这些场景之后,结合视频理解图谱,就会得到当前视频片段所属的影视剧是哪一个,这样就相当于对每个视频进行时序上打标签。有了这些标签之后,可以把需要的视频片段进行整合,通过一定的构建策略,生产精彩集锦类的视频。

另外一个比较常见的视频类型是图文转视频,创作者只需要进行一次的稿件撰写,就可以实现多种模态的发布,可以大大节省人力。对于生成的资讯视频一般要求要足够的简洁,视频的内容要和语音有对应关系。

图文转视频的过程大概可以分为以下步骤:

首先生成文章摘要,文章一般来说都是包含数百上千字的内容,但是资讯类的视频长度可能在30秒到100秒左右,因此我们需要进行摘要;

其次需要对摘要后的文本进行锚点选择,锚点就是摘要后的一些比较关键的信息片段,比如上图例子中“英特尔”就是一个比较关键的锚点,这样做主要的原因是生成视频的素材输入大部分情况下都很少,比如可能就2-3张图,我们要把最相关的素材给到用户关注度最高的时间点上;

对于这些关键信息出现的时间点,需要有对应的高相关的素材进行展示,比如上述例子中的,当语音说到“intel”的时候,视频展示的是文章里面的包含intel的配图,如果文章中无对应的高相关性的图片视频素材,那就通过检索关联,从知识图谱中获取对应的信息;

对于非锚点的时间区间,可以使用文章中的其他低值素材作为填充,同样地,如果无素材,则从知识图谱中获取相关素材;

最后,使用视频生成引擎进行视频的渲染。

最后是数据转视频,像前面介绍的数据到文本的生成,理论上来说都可以通过视频化的方式展示。在我们的应用中,也发现视频方式展示的内容比图文更加受用户的喜爱,因此我们构建了非常多的通用的视频模板。比如上图中深圳房价动态的视频,我们可以定期获取动态更新的数据,再结合知识图谱中已有数据,就可以生成房价波动视频,从而满足用户观看的需求。

辅助创作

辅助创作核心的价值是可以告诉用户有什么可以写,我们有跟媒体编辑聊过,他们认为整个创作流程当中第一步的策划其实是最难的,即如何找到有价值的创作点,而辅助创作刚好可以做到这一点。以帮助用户进行选题策划为例,我们可以将各类资讯的各个纬度进行理解和展示,激发用户的创作灵感。

辅助创作最关键的技术就是主题图谱,它是支撑创作选题和选材的核心。

上图左边的这张图中,大的节点代表一个主题,蓝色的是实体主题,红色的是事件主题,每个主题都有相应的素材、热度、稀缺度、行业和地域等属性,主题之间的边关系包括了实体的spo关系、事件的从属关系以及更为抽象发散的隐式的关系。上图右边的这张图是主题图谱的构建过程,首先我们是以实体、事件图谱、query、新闻等作为基础数据,然后进行主题、属性和边关系的挖掘,最后为用户提供按照热度、稀缺度进行主题素材的推荐和检索,另外还能够基于边关系进行主题的扩展。

下面具体看一下主题图谱具体是如何构建的:

主题分为实体主题和事件主题,他们的挖掘方式各有不同。

实体主题:我们以百度的核心集为基础,通过实体概念标注,从各种资讯中挖掘出实体概念主题,并抽取和计算每个主题的属性。

事件主题:我们通过对客观世界发生的事件,通过对篇章进行阅读理解、问答的方式来抽取出事件主题。事件抽取策略通过百度ERNIE—基于知识增强的语义理解模型进行多轮问答技术来实现的。

对于边关系的挖掘,我们划定了三类边关系,第一种是KG实体中的spo关系,第二种是事件之间的关系,但以上这两种关系都受限于严谨的语义关系,而创作者在选题的时候往往会需要一些比较发散的、抽象性的思考。因此我们采用隐式关系来满足这种需求,具体的做法是:首先从篇章中抽取出主题,然后对篇章的要素进行标注,比如实体、地点、以及重要的term,接下来分别从篇章数量热度、站点权重和共现位置计算这些term与主题的关系强度,再计算时效性的衰减,最后得到隐式关系的强度。

辅助创作的另外一个比较有价值的应用是媒资智能管理,简单来说就是帮助各个媒体进行视频的拆条、编目、标注的能力。拆条就是对一个完整的视频进行分割,像新闻联播,它可以分为很多的独立的片段,拆条的力度可以是片段级、场景级、镜头级;编目就是对拆条后的视频进行总结的描述。

针对媒资智能管理应用场景,我们构建了多模素材理解技术。通过获取视频中的感知数据信息,然后对关键信息进行整合输出。比如跨场景的人脸追踪,可以帮助我们对视频进行多粒度的拆条,通过对这种实时资讯的抓取、理解以及检索和视频asr的解析,可以帮助我们生成编目的解析。目前,我们的方案在拆条、编目的效率上比纯人工提升了3-4倍。

04/落地场景及应用案例自动创作应用落地

自动创作方面,我们在百度百家号落地了数十类的图文文章,借助视频创作引擎,我们在好看视频也落地了多种类型的视频作品,CTR达到了与人工创作持平,同时在百度地图落地了商家推广的视频产品。

辅助创作应用落地

辅助方面,在公司内部,我们支持了百家号APP的多项创作能力,例如热点分析、热门推荐、主题趋势等。

行业赋能

在行业赋能方面,自动创作上,我们和国家预警中心,中国天气网等部门进行了深度的合作;辅助创作上,我们支持了四川观察新闻视频的拆条和主题抽取的应用,以及多家省级媒体的辅助能力的落地。此外,在去年初我们还和人民日报达成了持续的合作,输出了多项创作的核心能力。

今天的分享就到这里,谢谢大家。

分享嘉宾:

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇