人工智能生成内容AIGC是什么
-影视:AIGC可以用于影视中的剧本生成、角色生成、场景生成等方面,提高影视的创作效率和质量。例如,ReplikaStudios是一个基于深度学习技术的语音合成平台,可以根据用户提供的文字输入或者选择预设角色,生成具有不同情感和口音的语音。
-媒体:AIGC可以用于媒体中的新闻写作、评论写作、标题写作等方面,提高媒体的生产力和影响力。例如,ChatGPT是一个基于自然语言生成技术NLG的人工智能聊天平台,可以根据用户输入或上下文生成流畅、有趣和合理的对话。
-广告:AIGC可以用于广告中的文案写作、素材制作、视频制作等方面,提高广告的创意性和吸引力。例如,CopyAI是一个基于自然语言生成技术NLG的人工智能文案平台,可以根据用户输入或选择不同类型或风格的文案模板,生成适合不同场景或目标客户群体的文案。
2.AIGC是继PGC、UGC之后的新型内容创作方式,可以在创意、表现力、迭代、传播、个性化等方面,充分发挥技术优势。
-创意:AIGC可以根据用户输入的关键词或要求,自动地生成内容,无需人工干预或编辑。这样可以节省时间和成本,提高效率和效果。同时,AIGC可以利用深度学习和强化学习等技术,不断地学习和优化内容生成的策略,并生成具有创意和个性化的内容。这样可以增加内容的吸引力和价值,提高用户参与度和转化率。
-表现力:AIGC可以利用预训练大模型、生成式对抗网络(GAN)等方法,自动生成各种类型的内容,例如文章、视频、图片、音乐、代码等。这样可以满足不同用户的不同需求,提供多样化和丰富化的内容选择。同时,AIGC可以利用自然语言处理和计算机视觉等技术,实现与用户的自然交流和反馈,并根据用户的喜好和行为,动态地调整内容生成的方式。这样可以增强内容的表现力和适应性,提高用户体验和忠诚度。
-迭代:AIGC可以利用大数据和云计算等技术,快速地处理海量的信息,并生成高质量的内容。这样可以满足海量用户的内容需求,提高用户满意度和留存率。同时,AIGC可以利用机器学习和深度学习等技术,不断地更新和改进内容生成的模型和算法,并根据用户反馈进行优化。这样可以保证内容生成的质量和效果,提高内容生成的可靠性和稳定性。
-传播:AIGC可以利用社交媒体、电商平台、游戏平台等渠道,将生成的内容进行广泛地传播和分享。这样可以扩大内容生成的影响力和覆盖面,提高内容生成的知名度和口碑。同时,AIGC可以利用网络分析、数据挖掘、推荐系统等技术,将生成的内容进行精准地定位和推送,并根据用户反馈进行调整。这样可以提升内容生成的匹配度和粘性,提高内容生成的转化率和收益率。
-个性化:AIGC可以利用用户画像、行为分析、情感识别等技术,将生成的内容进行个性化地定制和适配。这样可以满足不同用户的不同喜好和需求,提供差异化和个性化的内容服务。同时,AIGC可以利用对话系统、语音合成、图像合成等技术,将生成的内容进行个性化地呈现和交互,并根据用户反馈进行调节。这样可以增加内容生成的亲切感和友好感,提高内容生成的满意度和信任度。
3.AIGC代表AI技术发展的新趋势,过去传统人工智能偏向分析能力,而现在人工智能正在生成新内容,实现从感知理解世界到生成创造世界的进击。
AIGC代表着AI技术从感知、理解世界到生成、创造世界的跃迁,正推动人工智能迎来下一个时代。如果说过去传统的人工智能偏向于分析能力,那么AIGC则证明人工智能在生成全新的东西,实现人工智能从感知理解世界到生成创造世界的全面进化和蜕变。换句话说,AIGC是具有颠覆性的。
-从商业层面看,AIGC本质上是一种AI赋能技术,能够通过其高通量、低门槛、高自由度的生成能力,广泛服务于各类内容的相关场景及生产者。AIGC可以在创意、表现力、迭代、传播、个性化等方面,充分发挥技术优势,打造新的数字内容生成与交互形态。
-从发展趋势来看,全球科技界都在为此轮生成式AI热潮狂欢,且提振AI产业发展信心的消息层出不穷。2022年被认为是AIGC发展速度惊人的一年——不仅被消费者追捧,而且备受投资界关注,更是被技术界和产业界竞相追逐。2023年AIGC领域将迎来更大发展。AIGC生成内容的类型不断丰富、质量不断提升,也将有更多的企业积极拥抱AIGC。
-从技术层面看,AIGC得益于算法技术进展,其中包含对抗网络、流生成模型、扩散模型等深度学习算法。而且在多模态的技术支持下,目前预训练模型已经从单一的NLP或CV模型发展到了多种语言文字、图像、音视频的多模态模型。进而形成了参数丰富、训练量大、生成内容稳定的高质量流水线,实用性大大提升。
-从应用层面看,AIGC已经让千行百业捕捉到新的技术与产业机会,关于应用革命的大幕就此拉开。目前,AIGC的典型应用是利用自然语言描述作为输入生成各种模态的数据,包括文本、代码、图像、语音、视频、3D模型、场景等,并衍生出各种各样丰富的应用场景。在AIGC+新闻、AIGC+影视、AIGC+娱乐、AIGC+办公等产业链的海量节点上,不仅带来降本增效的效果,更强势助力于个性化内容的生成。
二、AIGC的发展历程和趋势
AIGC的发展可分为三阶段,早期萌芽阶段(上世纪50年代至90年代中期),沉淀累积阶段(上世纪90年代至本世纪10年代中期),快速发展阶段(本世纪10年代中期至今)
1.早期萌芽阶段(上世纪50年代至90年代中期)
这一阶段,由于技术限制AIGC仅限于小范围实验与应用,1957年出现首支电脑创作的音乐作品,弦乐四重奏《依利亚克组曲(IlliacSuite)》,80年代末至90年代中由于高成本及难以商业化,因此资本投入有限导致AIGC无较多较大成绩。
2.沉淀累积阶段(上世纪90年代至本世纪10年代中期)
这一阶段,AIGC从实验性转向实用性,2006年深度学习算法取得进展,同时GPU,CPU等算力设备日益精进,互联网快速发展,为各类人工智能算法提供海量数据进行训练。2007年首部人工智能装置完成的小说《ITheRoad》(《在路上》)问世,2012年微软展示全自动同声传译系统,主要基于“深度神经网络”(DeepNeuralNetwork,DNN)自动将英文讲话内容通过语音识别等技术生成中文。
3.快速发展阶段(本世纪10年代中期至今)
这一阶段,2014年深度学习算法“生成式对抗网络”(GenerativeAdversarialNetwork,GAN)推出并迭代更新,助力AIGC新发展。2017年微软人工智能少年“小冰”推出世界首部由人工智能写作的诗集《阳光失了玻璃窗》,2018年NVIDIA(英伟达)发布StyleGAN模型可自动生成图片,2019年DeepMind发布DVD-GAN模型可生成连续视频。2021年OpenAI推出DALL-E并更新迭代版本DALL-E-2,主要用于文本、图像的交互生成内容。
AIGC的快速发展离不开深度学习模型的不断完善、开源模式的推动、大模型探索商业化的可能等因素。AIGC目前呈现内容类型不断丰富、内容质量不断提升、技术的通用性和工业化水平越来越强等趋势,未来将进一步推动AIGC领域的蓬勃发展。
三、AIGC的应用场景和价值
AIGC按内容生成类别可划分为文本、代码、图像、音视频四类,根据红杉资本预测,2023年文本、代码生成有望得以成熟应用,其中文本生成可实现垂直领域文案的精确调整,达到科研论文精度,代码生成可覆盖多语种多垂直领域;图像、音视频生成的成熟度相对较低,目前尚处于生成基础初稿的阶段,2030年有望得以成熟应用。
1.文本生成:文本交互成为未来发展方向
(1)应用型文本
大多为结构化写作,以客服类的聊天问答、新闻撰写等为核心场景。最为典型的是基于结构化数据或规范格式,在特定情景类型下的文本生成,如体育新闻、金融新闻、公司财报、重大灾害等简讯写作。NarrativeScience创始人甚至曾预测,到2030年,90%以上的新闻将由机器人完成。
(2)创作型文本
主要适用于剧情续写、营销文本等细分场景等,具有更高的文本开放度和自由度,需要一定的创意和个性化,对生成能力的技术要求更高。我们使用了市面上的小说续写、文章生成等AIGC工具。发现长篇幅文字的内部逻辑仍然存在较明显的问题、且生成稳定性不足,尚不适合直接进行实际使用。除去本身的技术能力之外,由于人类对文字内容的消费并不是单纯理性和基于事实的,创作型文本还需要特别关注情感和语言表达艺术。
(3)文本辅助
除去端到端进行文本创作外,辅助文本写作其实是目前国内供给及落地最为广泛的场景。主要为基于素材爬取的协助作用,例如定向采集信息素材、文本素材预处理、自动聚类去重,并根据创作者的需求提供相关素材。
(4)文本交互
例如虚拟伴侣、游戏中的NPC个性化交互等。2022年夏季上线的社交AIGC叙事平台HiddenDoor以及基于GPT-3开发的文本探索类游戏AIdungeon均已获得了不错的消费者反馈。
案例:小冰发布小冰岛APP,每个用户均可创造自己的岛屿,并连带拥有一个功能类似于微信和LINE等社交产品的完整社交交互界面。用户不仅能在岛屿中体验丰富的视觉和自然音场,与人工智能个体进行对话,还可以再造完整的一对一对话、群聊、朋友圈和技能生态体验。
2.音频生成:AI编曲将成为AI音频生成中的快速成长赛道
(1)TTS(Text-to-speech)场景
泛应用于客服及硬件机器人、有声读物制作、语音播报等任务。例如倒映有声与音频客户端“云听”APP合作打造AI新闻主播,提供音频内容服务的一站式解决方案,以及喜马拉雅运用TTS技术重现单田芳声音版本的《毛氏三兄弟》和历史类作品。这种场景为文字内容的有声化提供了规模化能力。随着内容媒体的变迁,短视频内容配音已成为重要场景。部分软件能够基于文档自动生成解说配音,上线有150+款包括不同方言和音色的AI智能配音主播。代表公司有九锤配音、加音、XAudioPro、剪映等。
(2)乐曲/歌曲生成
AIGC在词曲创作中的功能可被逐步拆解为作词(NLP中的文本创作/续写)、作曲、编曲、人声录制和整体混音。目前而言,AIGC已经支持基于开头旋律、图片、文字描述、音乐类型、情绪类型等生成特定乐曲。通过这一功能,创作者即可得到AI创作的纯音乐或乐曲中的主旋律。2021年末,贝多芬管弦乐团在波恩首演人工智能谱写完成的贝多芬未完成之作《第十交响曲》,即为AI基于对贝多芬过往作品的大量学习,进行自动续写。
图像属性及部分编辑
属性编辑部分,可以直观地将其理解为经AI降低门槛的PhotoShop。用户可以通过简单的操作,对图像进行旋转、裁剪、缩放、调整色彩、添加滤镜、文字、水印等效果。例如,iLoveIMG1就是一个提供多种图像编辑工具的在线平台,可以帮助用户快速处理图像文件。
部分编辑部分,是指对图像的局部区域进行修改或替换,如去除背景、去除物体、换脸、换衣等。这种编辑需要AI具有较强的图像理解和生成能力,以保证编辑后的图像自然和逼真。例如,Pixlr1就是一个提供部分编辑功能的在线图像编辑器,可以让用户轻松地实现背景消除、物体移除、面部模糊等效果。
四、AIGC的商业模式
AIGC的商业模式主要有以下四种:
(1)平台模式
平台模式是指提供AIGC技术服务的平台,通过收取使用费或订阅费来盈利。这种模式的优势是可以覆盖多个领域和场景,为用户提供灵活和便捷的AIGC服务。例如,OpenAI的GPT-3就是一个典型的平台模式,它提供了一个开放的API,让用户可以根据自己的需求来生成各种类型的内容。另一个例子是无界AI,它是一个专注于图像生成的平台,可以根据用户输入的文字或图片来生成高质量的图像。
(2)产品模式
产品模式是指针对特定领域或场景,开发出具有特色和价值的AIGC产品,通过销售产品或提供增值服务来盈利。这种模式的优势是可以深入挖掘用户需求,提供更加专业和个性化的AIGC体验。例如,小冰岛就是一个产品模式的AIGC应用,它是一个基于人工智能的社交平台,让用户可以创建自己的虚拟岛屿,并与人工智能个体进行对话和互动。另一个例子是Jasper,它是一个基于GPT-3的邮件自动回复工具,可以帮助用户快速处理邮件事务。
(3)内容模式
内容模式是指利用AIGC技术来生产内容,并通过内容分发或广告等方式来盈利。这种模式的优势是可以大幅降低内容生产成本和时间,提高内容质量和效率。例如,倒映有声就是一个内容模式的AIGC应用,它利用TTS技术来生成高质量的音频内容,并与音频客户端“云听”合作,提供音频内容服务。另一个例子是NarrativeScience,它利用NLP技术来生成新闻报道和财务报告,并与多家媒体和企业合作,提供数据驱动的内容服务。
(4)模型训练费用
模型训练费用是指通过提供AIGC技术所需的数据和算力资源,收取相应的费用来盈利。这种模式的优势是可以为AIGC技术提供必要的支持和保障,降低技术门槛和成本。例如,谷歌云平台就提供了多种数据和算力服务,帮助用户训练和部署AIGC模型。另一个例子是清华大学开源了其自研的大规模中文预训练语言模型CPM-Generate,并收取一定的使用费用。
五、AIGC的挑战和展望
AIGC作为一种基于人工智能技术的内容生成方式,近年来在各个领域展现出了强大的应用潜力和商业价值,引发了社会各界的广泛关注和热议。然而,AIGC的发展也面临着技术瓶颈、数据质量、伦理道德、版权保护等方面的挑战,需要持续创新和规范管理。同时,AIGC也有望成为新型的内容生产和消费基础设施,塑造数字内容生产与交互新范式,持续推进数字文化产业创新。本部分将从以下三个方面对AIGC的挑战和展望进行分析。
1.AIGC面临的主要挑战
(1)技术瓶颈
尽管AIGC技术在近年来取得了长足的进步,但仍然存在一些技术瓶颈,限制了AIGC的生成能力和应用范围。主要表现在以下几个方面:
-数据依赖性。AIGC技术通常需要大量的数据来训练模型,而数据的获取、清洗、标注等过程往往耗时耗力,且容易受到数据质量、数据偏差、数据隐私等因素的影响。此外,不同领域和场景下的数据特征也有所差异,导致模型的泛化能力和迁移能力受到限制。
-生成质量。AIGC技术虽然可以生成各种类型和风格的内容,但生成内容的质量仍然有待提高。主要问题包括生成内容存在逻辑错误、语法错误、语义不通、信息冗余、信息缺失、信息不一致等现象,以及生成内容缺乏创新性、多样性、个性化等特点。
-生成效率。AIGC技术虽然可以提高内容生产效率,但生成效率仍然受到模型复杂度、计算资源、用户需求等因素的制约。主要问题包括模型训练和推理需要消耗大量的算力和时间,以及用户对生成内容的反馈和修改需要多次迭代和交互。
(2)数据质量
数据是AIGC技术的重要基础,数据质量直接影响到模型性能和生成效果。然而,在实际应用中,数据质量往往存在以下几个方面的问题:
-数据不足。对于一些特定领域或场景下的内容生成任务,可能缺乏足够数量和类型的数据来支撑模型训练。例如,在医疗领域,由于医学知识的专业性和隐私性,获取医疗文本或图像等数据较为困难。
-数据不平衡。对于一些涉及多类别或多风格的内容生成任务,可能存在数据分布不均匀的情况,导致模型在某些类别或风格上表现不佳。例如,在音乐领域,由于不同音乐流派或风格的流行程度不同,获取相应音乐数据可能存在偏差。
-数据不准确。对于一些需要高精度或高可信度的内容生成任务,可能存在数据错误或虚假的情况,导致模型学习到错误或误导性的信息。例如,在新闻领域,由于网络上存在大量的谣言或假新闻等信息,获取真实可靠的新闻数据较为困难。
(3)伦理道德
伦理道德是AIGC技术发展中不可忽视的一个方面,涉及到人工智能与人类社会之间的价值观、道德观、法律观等问题。主要表现在以下几个方面:
-人机关系。AIGC技术可以生成逼真且具有情感表达能力的内容,如聊天机器人、数字人等,可能影响到人类与机器之间的关系和互动方式。例如,在社交领域,用户可能对聊天机器人产生过度依赖或情感寄托等现象。
-人类创造力。AIGC技术可以生成具有创造力和创新性的内容,如艺术作品、文学作品等,可能影响到人类自身创造力和创新力的发展和认知。例如,在文化领域,用户可能对人工智能生成的内容产生过度信赖或盲目崇拜等现象。
-人类责任。AIGC技术可以生成具有影响力和操纵力的内容,如新闻报道、广告宣传等,可能影响到人类社会中的公共利益和个人权益等问题。例如,在政治领域,用户可能对人工智能生成的内容产生过度信服或误导等现象。
(4)版权保护
版权保护是AIGC技术应用中一个亟待解决的问题,涉及到人工智能与原创作者之间的知识产权归属、利益分配、责任追究等问题。主要表现在以下几个方面:
-来源确定性。AIGC技术可以生成各种来源不明或来源混杂的内容,并且难以区分其真伪或原创性。例如,在教育领域,学生可能使用AIGC技术来生成抄袭或伪造的作业或论文等。
-归属确定性。AIGC技术可以生成各种无作者或多作者参与归属确定性。AIGC技术可以生成各种无作者或多作者参与的内容,如AI绘画、AI写作、AI作曲等,这就导致了内容的-归属难以确定。例如,如果一个人使用AIGC技术生成了一幅画,那么这幅画的作者是这个人,还是AIGC技术,还是AIGC技术背后的数据和算法?如果多个人使用同一个AIGC技术生成了类似的内容,那么这些内容的归属又如何划分?这些问题涉及到知识产权的界定和保护,需要明确的法律规范和制度安排。
2.AIGC的展望
AIGC作为一种基于人工智能技术的内容生成方式,具有巨大的发展潜力和前景。根据多份报告的预测,AIGC的市场规模将在未来几年内快速增长,达到千亿甚至万亿级别。AIGC的应用场景也将不断拓展,涵盖消费互联网、产业互联网和社会价值等多个领域,产生变革性的影响。本部分将从以下三个方面对AIGC的展望进行分析。
-在消费互联网领域,AIGC将成为新型的内容生产基础设施,塑造数字内容生产与交互新范式,持续推进数字文化产业创新。目前,AIGC已经在传媒、电商、影视、娱乐等数字化程度高、内容需求丰富的行业取得重大发展,涌现了写作助手、AI绘画、对话机器人、数字人等爆款级应用,支撑着海量用户的内容创建和消费需求。未来,AIGC将进一步提高内容生产效率和质量,拓展内容生产范围和类型,丰富内容消费方式和体验,为用户提供更多元和个性化的内容服务和体验,并与用户进行交互和沟通。例如:
写作助手:AIGC技术可以帮助用户完成各种类型的写作任务,如小说、诗歌、论文、代码等,并提供修改、优化、检查等功能,提升写作效率和质量。
AI绘画:AIGC技术可以根据用户输入的文字或图片生成各种风格和主题的图像,如卡通画、油画、素描等,并提供调整、编辑、保存等功能,满足用户的创意表达需求。
对话机器人:AIGC技术可以与用户进行自然语言对话,回答各种问题,提供各种信息,如智能问答、智能推荐、智能聊天等,并提供反馈、学习、优化等功能,增强用户的交互体验。
数字人:AIGC技术可以生成具有真实外貌和声音的虚拟人物,并赋予其个性和情感,如虚拟歌手、虚拟主播、虚拟明星等,并提供定制、控制、分享等功能,打造用户的数字形象。
-在产业互联网领域,基于AIGC技术的合成数据(syntheticdata)迎来重大发展,合成数据将牵引人工智能的未来。合成数据是指利用AIGC技术生成的模拟真实世界数据的数据集,用来训练、测试、验证AI模型。合成数据具有以下优势:
降低数据采集和标注成本:利用AIGC技术可以快速生成大量高质量的数据集,无需花费大量人力和时间去采集和标注真实世界数据。
提高数据质量和多样性:利用AIGC技术可以精确控制数据集的分布和特征,避免真实世界数据存在的噪声和偏差,并且可以生成难以获取或缺乏的数据类型。
保障数据隐私和安全:利用AIGC技术可以生成与真实世界数据无关联或低关联的数据集,避免泄露或滥用真实世界数据中包含的敏感或隐私信息。
合成数据在各个行业都有广泛的应用场景,如医疗影像诊断、自动驾驶模拟训练、金融风控模型验证等。未来,合成数据将成为AI模型训练开发的强大助推器,推动实现AI2.0。
-在社会价值领域,AIGC将为教育、医疗、公益等领域带来积极影响,提升社会福祉水平。例如:
教育:AIGC技术可以为教育领域提供智能教学辅助工具,如智能教材生成、智能习题生成、智能评估反馈等,并提供个性化学习路径和内容推荐,提高教育质量和效果。
医疗:AIGC技术可以为医疗领域提供智能医疗辅助工具,如智能诊断报告生成、智能药物设计生成、智能康复方案生成等,并提供个性化医疗服务和内容推荐,提高医疗水平和效率。
公益:AIGC技术可以为公益领域提供智能公益辅助工具,如智能捐赠建议生成、智能志愿活动生成、智能公益报道生成等,并提供个性化公益服务和内容推荐,提高公益参与度和影响力。返回搜狐,查看更多
人工智能
微软人工智能公开课概览|雷锋网公开课
Video++张奕:人工智能在消费级视频场景中的应用丨雷锋网公开课(附PPT)
清华大学博士生涂锋斌:设计神经网络硬件架构时,我们在思考些什么?(下)|雷锋网公开课总结
清华大学博士生涂锋斌:设计神经网络硬件架构时,我们在思考些什么?(上)|雷锋网公开课总结
微软亚洲研究院秦涛:对偶学习的对称之美|雷锋网公开课总结
人工智能技术应用专业主要学什么
人工智能技术应用专业主要学人工智能应用导论、程序设计基础、Python应用开发、Linux操作系统、数据库技术、计算机网络技术、人工智能数学基础、人工智能数据服务、计算机视觉应用开发、深度学习应用开发等课程,以下是相关介绍,供大家参考。
1、专业课程专业基础课程:人工智能应用导论、程序设计基础、Python应用开发、Linux操作系统、数据库技术、计算机网络技术、人工智能数学基础。
专业核心课程:人工智能数据服务、计算机视觉应用开发、深度学习应用开发、自然语言处理应用开发、智能语音处理及应用开发、人工智能系统部署与运维、人工智能综合项目开发。
2、培养目标本专业培养德智体美劳全面发展,掌握扎实的科学文化基础和人工智能数据技术、机器学习基础、深度学习框架及相关法律法规等知识,具备数据处理、模型训练、应用开发等能力,具有工匠精神和信息素养,能够从事人工智能数据服务、智能软件设计与开发、智能系统集成、智能应用系统部署与运维等工作的高素质技术技能人才。
3、就业方向面向人工智能训练师、人工智能工程技术人员等职业,人工智能数据服务、算法模型训练与测试、人工智能应用开发、人工智能系统集成与运维等岗位(群)。
人工智能为媒体赋能
原标题:人工智能为媒体赋能人工智能有望改变媒体,重塑媒体的整个流程。未来,人工智能将融入到媒体运作的各个环节,但在媒体行业的落地,需要更复杂、更全面的架构。无论是人工智能本身还是其在传媒领域的应用,距离成熟都还有很长的路要走。当下,应基于媒体行业自身的数据构建具有针对性的人工智能系统,提升媒体与人工智能结合的成熟度。
人工智能媒体融合应用场景未来发展
媒体行业正处于融合发展的深水期和战略转型期,亟须找到媒体产业升级的新思路和新方向。随着人工智能应用的逐渐普及以及人工智能在媒体行业中一个个新的实际应用成果的诞生,我们越来越清晰地看到人工智能在推动媒体融合发展中的作用。人工智能给媒体行业带来的影响是深远的,推动着媒体运作流程中每个环节的变革,人工智能正成为媒体纵深融合的关键着力点,为媒体向智能化发展赋能。
人工智能+媒体:应用场景多元
大数据时代为媒体带来了前所未有的丰富数据资源和先进数据科学技术,但同时媒介环境变化也给行业的态势带来深度的影响。如今,受众呈现出分散化、复杂化的特征,信息量指数式增加,传统的内容生产、分发的方式及传受关系已不能满足时代的需要。媒体和媒体人正试图探索人工智能给智能媒体变革带来的新机遇,并积极寻求人工智能在传媒领域的落地。
人工智能在媒体有着巨大的应用空间,事实上,人工智能与媒体实际应用的结合已经有许多成功的案例并且在许多方面有着出色的表现,媒体行业对于人工智能技术直接或间接的运用正在不断发展,并将推广到更广泛的新场景。
高级文本分析技术
基于自然语言处理技术的文本分析技术是人工智能重要技术领域。自然语言处理(NLP)可以分析语言模式,从文本中提取出表达意义,其终极目标是使计算机能像人类一样“理解”语言。基于内容理解和NLP的写作机器人为记者赋能,可以模拟人的智能和认知行为,实现机器的“创造力”,经过对大量数据的分析和学习,形成“创作”的模板,用人机结合的方式来强化记者的写作能力。国内的媒体积极地将这一技术作为媒体内容生产方式的创新,如新华社的“快笔小新”,南方报业的“小南”等。百度人工智能开放平台推出的NLP产品“新闻摘要”,其技术原理是基于语义分析和深度学习模型,进行新闻内容的语义分析,自动抽取新闻内容中的关键信息,并生成指定长度的新闻摘要,可用于热点新闻聚合、新闻推荐、语音播报等场景。
图像和视频识别技术
图像和视频识别可以基于深度学习进行大规模数据训练,实现对图片、视频中物体的类别、位置等信息的识别。图像主体检测可以识别图像的场景、图像中主体的位置、物体的标签等。人工智能视频技术则能够提供视频内容分析的能力,对于视频中的物体和场景进行识别并能够输出结构化标签。
图像和视频技术在媒体中应用十分广泛,如内容分析、质量检测、内容提取、内容审核等方面。以媒体内容监测为例,有了人工智能图像视频技术的加持,使得非结构化媒体数据采用机器审核成为可能,通过数据集的训练建立用于审核的模型,针对画面中的元素进行追踪,对于图像及视频中的不恰当、有争议或违法内容、敏感内容、低俗内容等进行识别检测,进行标注和报警,以进行过滤和处理,可以大大减少人力的投入。
语音技术
人工智能语音技术主要包括语音识别和语音合成,它是一种“感知”的智能。自动语音识别(ASR/AVR)是基于训练的自动语音识别系统,将物理概念上的音频信息转换为机器可以识别并进行处理的目标信息,如文本。语音合成技术是通过深度学习框架进行数据训练,从而使得机器能够仿真发声。一些智能语音开放平台也提供了智能语音服务。以科大讯飞构建的智能语音开放平台为例,科大讯飞的语音输入法准确率已经能达到98%,并且输入的速度提高到了每分钟400字。越来越多的媒体开始使用科大讯飞的语音技术。
随着语音转换技术的日渐成熟,“语音-文本”双向转换技术在媒体中的应用成为可能。例如将语音识别技术在采编环节中使用,生成文本稿件并进行二次编辑。运用人工智能智能语音编译系统,将现场的语音报道生成文字版,大大提升了编辑人员原本耗时的整理工作的效率。将媒体的视音频内容转化成为文本素材,提升了媒体稿件、节目素材管理的效率。由于需要应对媒体音频和视频文件声源的复杂性和不可控性,虽然目前生成的文字稿件并不完美,但也在不断地提升和改善。
语音合成技术可以基于深度学习模型,把媒体报道的文章从文字版转换成语音版,并且接近于逼真的人声。甚至可以根据不同受众群体的需求,针对性地生成特定的声音供用户收听,打造更贴切、更有亲和力的语音体验。
人脸与人体识别技术
人脸识别是人工智能的应用中最为人所熟知的,它属于计算机视觉领域(CV)。目前人脸识别技术的主要应用包括人脸检测与属性分析、人脸对比、人脸搜索、活体检测、视频流人脸采集等方面。谷歌、苹果、Facebook、亚马逊和微软等互联网巨头争相在这一领域的技术和应用方面抢夺先机,纷纷推出相关的技术应用并不断突破创新。2018年5月的媒体报道称,亚马逊积极推广名为Rekognition的人脸识别服务,该解决方案可以在单个图像中识别多达100个人,并且可以对包含数千万个面部的数据库执行面部匹配。Facebook使用简单的人脸检测算法来分析图像中人脸的像素,并将其与相关用户进行比较,为上传到平台上的每张图片提供了自动生成的标记建议,取代了手动图像标记。
个性化推荐技术
传媒领域的大部分产品如电影、新闻、书籍、音乐、广告、文化活动等都致力于吸引受众阅读,聆听和观看媒体生产的内容。发现目标群体并把内容传播给该群体是能否达成媒体传播效果的关键一环,而个性化推荐技术解决了这一难题。这是目前在媒体中应用较为成功的人工智能技术,在媒体的内容分发过程中,个性化推荐技术为用户提供个性化体验,针对每个特定用户量身定制推荐内容,减少搜索相关内容所花费的时间。与此同时,对于人们所担忧的,由于算法主导的精准分发过程只推荐感兴趣的内容,会导致用户陷于信息茧房的问题,研究人员目前也在试图改进算法,开发“戳破气泡”的应用技术。例如BuzzFeed推出的“OutsideYourBubble”、瑞士报纸NZZ开发的“theCompanion”程序、Google的“EscapeYourBubble”等。
预测技术
现在已经开发出来的一些强大的基于人工智能的预测技术,让我们可以“预知未来”。通过时间序列(TS)建模来处理基于时间的数据,以获得时间数据中的隐含信息并作出判断。按照一定时间间隔点来收集数据,再对这些数据点的集合进行分析以确定长期趋势,以便预测未来或进行相应的分析。
当拥有时间相关数据时,时间序列模型将派上用场。例如,可以使用时间序列数据来分析某一家媒体下一年的用户数量、网站流量、影响力排名等,从而在广告投放方面作出合理决策。另外,如何及时地抓住社会热点是新闻机构所面临的重要问题,人工智能预测技术通过对海量的热点内容的模型进行训练和分析,建立热点模型,可以实现对于热点趋势的预测。
媒体需要思考的问题
人们越来越清晰地看到人工智能给媒体带来的意义与价值。在融合的时代背景下,媒体迫切需要人工智能带来推动媒体变革的潜力。与此同时,我们也不能认为人工智能可以解决媒体变革中的一切问题,技术并不是一块现成的、可以直接拿来享用的蛋糕,在媒体应用人工智能时,还需要着手考虑许多问题。
数据的完备性
媒介体系内部和外部都会产生大量的数据碎片,虽然目前数据量庞大,看似拥有海量的数据资源,但是生产的数据与可以用于人工智能的培训数据之间的匹配度还有待提升。在深度学习算法中,需要用大量的数据训练算法才能产生有意义的结果,数据的不完整性会导致准确性的下降,而准备这样的数据集的成本很高。为了实现大量的用户行为数据的积累,提高数据的完善程度,媒体需要构建大规模的数据体系和战略。为了实现人工智能在媒体中的进一步部署,媒体需要具备完备的数据源和处理更为庞大的数据系统的能力。
深度融合的方式
目前,人工智能技术还停留在初步应用层面,其深度还需要挖掘、广度还需要扩展,融合的方式也需要深入地进行探索。人工智能在媒体领域的大部分应用只是将现有的研究成果迁移到媒体行业,如果媒体想要更深入地参与到人工智能潮流中,就要积极地投入到算法的开发中,在人工智能领域中开辟出自己的空间,如此,才能使人工智能在媒体行业应用更加成熟。
数据安全与隐私
当人工智能应用飞速发展,人们很容易忽略在人工智能应用中的安全问题。2018年Facebook的数据泄漏事件折射出的数据安全漏洞引起社会关注,再一次提醒我们要严肃对待数据安全及隐私等问题。用户在媒介接触的过程中,用户数据和个人资料越来越多地交付给媒体,媒体在使用这些数据为用户提供更好服务的同时,需要权衡智能化用户体验和用户数据安全之间的关系。欧盟发布的通用数据保护条例(GDPR)于2018年5月25日正式生效,根据其条款,组织不仅必须确保在合法和严格的条件下收集个人数据,而且收集和管理个人数据的组织将有义务保护其免遭滥用和泄漏,并尊重数据所有者的权利,旨在确保人们可以掌控其个人数据。
坚守媒体的价值观和底线,保障数据安全,尊重用户隐私十分重要,媒体应思考在保护用户数据方面是否存在漏洞以及如何落实相应的人工智能安全策略。
人才培养
媒体领域对于人工智能人才的需求量还很大。要走出人才窘境,一方面要完善人才引进和培养规划,提升媒体从业人员的大数据和人工智能技能和素养,补齐人才短板。特别是要引进掌握坚实的传播理论基础,既懂媒体传播规律又懂大数据、人工智能的复合型人才,逐步形成与智能化媒体业务形态相适应的人才布局。另一方面要优化原有人才结构。当智能机器人取代部分人力成为可能,智媒时代的媒体人要在行业的巨变之中找准自己的定位,提升自己的知识技能。无处不在的“共享”和“开源”的知识使我们学习和了解人工智能行业前沿技术,例如Google发布的机器学习工具AutoML,用户无需掌握深度学习或人工智能知识即可轻松培训高性能深度网络来处理数据。
媒体和媒体人要拥抱媒体智能化的时代,破除对于新技术的“恐慌”,加快知识体系更新,使专业素养和工作能力跟上智能时代的节拍。
智能媒体:未来无限可能
虽然智能机器距离接近人类学习、思考和解决问题的能力还很遥远,但是机器取代人力是大趋势。人工智能将不断地从媒体生产链条向内容创建生产环节突破,从而帮助媒体进行内容升级和用户体验升级。
内容生产是未来人工智能在媒体行业实现新突破的重要方面,虽然人工智能目前不能超越人类的创造力,但可以承担起一部分信息收集、数据整理和内容创作的工作,将媒体人从一些重复性的繁冗工作中解放出来,从而节省出时间用于创作和创造性工作。媒体也应积极探索新的与人工智能结合的工作方式,使得工作更高效智能。
此外,人工智能将通过多种方式增强并带来更好的用户体验。通过学习用户行为,了解受众偏好从而使用户获取到感兴趣的内容,并根据用户画像定制个性化的内容。运用人工智能技术捕获处理数据,精准理解用户需求,可帮助媒体实现更加精细化的用户划分和用户分析,提供更加人性化的服务。人机交互使得用户体验更加立体化和场景化。
人工智能有望改变媒体的一切,重塑媒体的整个流程。预计未来人工智能将融入到媒体运作的各个环节。但无论是人工智能本身还是其在传媒领域的应用,距离成熟都还有很长的路要走。人工智能在媒体行业的落地,需要更复杂、更全面的架构。构建以大数据和人工智能为核心的技术生态体系,基于媒体行业自身的数据构建具有针对性的人工智能系统,提升媒体与人工智能结合的成熟度。目前人工智能技术在媒体行业的应用并不完善,但并不阻碍我们对于其发展前景的期待。
如何充分地发掘人工智能的潜力是媒体和媒体人面临的大命题,我们应思考人工智能如何更好地与媒介进行结合,尝试在融合发展面临的问题中加入人工智能解决方案。未来,机器与人的共生将成为媒体常态,我们期待人工智能为媒体带来更好的未来,在技术的助力下走向真正的智媒时代。
(作者沈浩系中国传媒大学新闻学院教授、博士生导师;杨莹莹系该院新闻与传播专业媒介市场调查方向硕士生)
(责编:赵光霞、宋心蕊)分享让更多人看到