人工智能生成内容AIGC是什么
-影视:AIGC可以用于影视中的剧本生成、角色生成、场景生成等方面,提高影视的创作效率和质量。例如,ReplikaStudios是一个基于深度学习技术的语音合成平台,可以根据用户提供的文字输入或者选择预设角色,生成具有不同情感和口音的语音。
-媒体:AIGC可以用于媒体中的新闻写作、评论写作、标题写作等方面,提高媒体的生产力和影响力。例如,ChatGPT是一个基于自然语言生成技术NLG的人工智能聊天平台,可以根据用户输入或上下文生成流畅、有趣和合理的对话。
-广告:AIGC可以用于广告中的文案写作、素材制作、视频制作等方面,提高广告的创意性和吸引力。例如,CopyAI是一个基于自然语言生成技术NLG的人工智能文案平台,可以根据用户输入或选择不同类型或风格的文案模板,生成适合不同场景或目标客户群体的文案。
2.AIGC是继PGC、UGC之后的新型内容创作方式,可以在创意、表现力、迭代、传播、个性化等方面,充分发挥技术优势。
-创意:AIGC可以根据用户输入的关键词或要求,自动地生成内容,无需人工干预或编辑。这样可以节省时间和成本,提高效率和效果。同时,AIGC可以利用深度学习和强化学习等技术,不断地学习和优化内容生成的策略,并生成具有创意和个性化的内容。这样可以增加内容的吸引力和价值,提高用户参与度和转化率。
-表现力:AIGC可以利用预训练大模型、生成式对抗网络(GAN)等方法,自动生成各种类型的内容,例如文章、视频、图片、音乐、代码等。这样可以满足不同用户的不同需求,提供多样化和丰富化的内容选择。同时,AIGC可以利用自然语言处理和计算机视觉等技术,实现与用户的自然交流和反馈,并根据用户的喜好和行为,动态地调整内容生成的方式。这样可以增强内容的表现力和适应性,提高用户体验和忠诚度。
-迭代:AIGC可以利用大数据和云计算等技术,快速地处理海量的信息,并生成高质量的内容。这样可以满足海量用户的内容需求,提高用户满意度和留存率。同时,AIGC可以利用机器学习和深度学习等技术,不断地更新和改进内容生成的模型和算法,并根据用户反馈进行优化。这样可以保证内容生成的质量和效果,提高内容生成的可靠性和稳定性。
-传播:AIGC可以利用社交媒体、电商平台、游戏平台等渠道,将生成的内容进行广泛地传播和分享。这样可以扩大内容生成的影响力和覆盖面,提高内容生成的知名度和口碑。同时,AIGC可以利用网络分析、数据挖掘、推荐系统等技术,将生成的内容进行精准地定位和推送,并根据用户反馈进行调整。这样可以提升内容生成的匹配度和粘性,提高内容生成的转化率和收益率。
-个性化:AIGC可以利用用户画像、行为分析、情感识别等技术,将生成的内容进行个性化地定制和适配。这样可以满足不同用户的不同喜好和需求,提供差异化和个性化的内容服务。同时,AIGC可以利用对话系统、语音合成、图像合成等技术,将生成的内容进行个性化地呈现和交互,并根据用户反馈进行调节。这样可以增加内容生成的亲切感和友好感,提高内容生成的满意度和信任度。
3.AIGC代表AI技术发展的新趋势,过去传统人工智能偏向分析能力,而现在人工智能正在生成新内容,实现从感知理解世界到生成创造世界的进击。
AIGC代表着AI技术从感知、理解世界到生成、创造世界的跃迁,正推动人工智能迎来下一个时代。如果说过去传统的人工智能偏向于分析能力,那么AIGC则证明人工智能在生成全新的东西,实现人工智能从感知理解世界到生成创造世界的全面进化和蜕变。换句话说,AIGC是具有颠覆性的。
-从商业层面看,AIGC本质上是一种AI赋能技术,能够通过其高通量、低门槛、高自由度的生成能力,广泛服务于各类内容的相关场景及生产者。AIGC可以在创意、表现力、迭代、传播、个性化等方面,充分发挥技术优势,打造新的数字内容生成与交互形态。
-从发展趋势来看,全球科技界都在为此轮生成式AI热潮狂欢,且提振AI产业发展信心的消息层出不穷。2022年被认为是AIGC发展速度惊人的一年——不仅被消费者追捧,而且备受投资界关注,更是被技术界和产业界竞相追逐。2023年AIGC领域将迎来更大发展。AIGC生成内容的类型不断丰富、质量不断提升,也将有更多的企业积极拥抱AIGC。
-从技术层面看,AIGC得益于算法技术进展,其中包含对抗网络、流生成模型、扩散模型等深度学习算法。而且在多模态的技术支持下,目前预训练模型已经从单一的NLP或CV模型发展到了多种语言文字、图像、音视频的多模态模型。进而形成了参数丰富、训练量大、生成内容稳定的高质量流水线,实用性大大提升。
-从应用层面看,AIGC已经让千行百业捕捉到新的技术与产业机会,关于应用革命的大幕就此拉开。目前,AIGC的典型应用是利用自然语言描述作为输入生成各种模态的数据,包括文本、代码、图像、语音、视频、3D模型、场景等,并衍生出各种各样丰富的应用场景。在AIGC+新闻、AIGC+影视、AIGC+娱乐、AIGC+办公等产业链的海量节点上,不仅带来降本增效的效果,更强势助力于个性化内容的生成。
二、AIGC的发展历程和趋势
AIGC的发展可分为三阶段,早期萌芽阶段(上世纪50年代至90年代中期),沉淀累积阶段(上世纪90年代至本世纪10年代中期),快速发展阶段(本世纪10年代中期至今)
1.早期萌芽阶段(上世纪50年代至90年代中期)
这一阶段,由于技术限制AIGC仅限于小范围实验与应用,1957年出现首支电脑创作的音乐作品,弦乐四重奏《依利亚克组曲(IlliacSuite)》,80年代末至90年代中由于高成本及难以商业化,因此资本投入有限导致AIGC无较多较大成绩。
2.沉淀累积阶段(上世纪90年代至本世纪10年代中期)
这一阶段,AIGC从实验性转向实用性,2006年深度学习算法取得进展,同时GPU,CPU等算力设备日益精进,互联网快速发展,为各类人工智能算法提供海量数据进行训练。2007年首部人工智能装置完成的小说《ITheRoad》(《在路上》)问世,2012年微软展示全自动同声传译系统,主要基于“深度神经网络”(DeepNeuralNetwork,DNN)自动将英文讲话内容通过语音识别等技术生成中文。
3.快速发展阶段(本世纪10年代中期至今)
这一阶段,2014年深度学习算法“生成式对抗网络”(GenerativeAdversarialNetwork,GAN)推出并迭代更新,助力AIGC新发展。2017年微软人工智能少年“小冰”推出世界首部由人工智能写作的诗集《阳光失了玻璃窗》,2018年NVIDIA(英伟达)发布StyleGAN模型可自动生成图片,2019年DeepMind发布DVD-GAN模型可生成连续视频。2021年OpenAI推出DALL-E并更新迭代版本DALL-E-2,主要用于文本、图像的交互生成内容。
AIGC的快速发展离不开深度学习模型的不断完善、开源模式的推动、大模型探索商业化的可能等因素。AIGC目前呈现内容类型不断丰富、内容质量不断提升、技术的通用性和工业化水平越来越强等趋势,未来将进一步推动AIGC领域的蓬勃发展。
三、AIGC的应用场景和价值
AIGC按内容生成类别可划分为文本、代码、图像、音视频四类,根据红杉资本预测,2023年文本、代码生成有望得以成熟应用,其中文本生成可实现垂直领域文案的精确调整,达到科研论文精度,代码生成可覆盖多语种多垂直领域;图像、音视频生成的成熟度相对较低,目前尚处于生成基础初稿的阶段,2030年有望得以成熟应用。
1.文本生成:文本交互成为未来发展方向
(1)应用型文本
大多为结构化写作,以客服类的聊天问答、新闻撰写等为核心场景。最为典型的是基于结构化数据或规范格式,在特定情景类型下的文本生成,如体育新闻、金融新闻、公司财报、重大灾害等简讯写作。NarrativeScience创始人甚至曾预测,到2030年,90%以上的新闻将由机器人完成。
(2)创作型文本
主要适用于剧情续写、营销文本等细分场景等,具有更高的文本开放度和自由度,需要一定的创意和个性化,对生成能力的技术要求更高。我们使用了市面上的小说续写、文章生成等AIGC工具。发现长篇幅文字的内部逻辑仍然存在较明显的问题、且生成稳定性不足,尚不适合直接进行实际使用。除去本身的技术能力之外,由于人类对文字内容的消费并不是单纯理性和基于事实的,创作型文本还需要特别关注情感和语言表达艺术。
(3)文本辅助
除去端到端进行文本创作外,辅助文本写作其实是目前国内供给及落地最为广泛的场景。主要为基于素材爬取的协助作用,例如定向采集信息素材、文本素材预处理、自动聚类去重,并根据创作者的需求提供相关素材。
(4)文本交互
例如虚拟伴侣、游戏中的NPC个性化交互等。2022年夏季上线的社交AIGC叙事平台HiddenDoor以及基于GPT-3开发的文本探索类游戏AIdungeon均已获得了不错的消费者反馈。
案例:小冰发布小冰岛APP,每个用户均可创造自己的岛屿,并连带拥有一个功能类似于微信和LINE等社交产品的完整社交交互界面。用户不仅能在岛屿中体验丰富的视觉和自然音场,与人工智能个体进行对话,还可以再造完整的一对一对话、群聊、朋友圈和技能生态体验。
2.音频生成:AI编曲将成为AI音频生成中的快速成长赛道
(1)TTS(Text-to-speech)场景
泛应用于客服及硬件机器人、有声读物制作、语音播报等任务。例如倒映有声与音频客户端“云听”APP合作打造AI新闻主播,提供音频内容服务的一站式解决方案,以及喜马拉雅运用TTS技术重现单田芳声音版本的《毛氏三兄弟》和历史类作品。这种场景为文字内容的有声化提供了规模化能力。随着内容媒体的变迁,短视频内容配音已成为重要场景。部分软件能够基于文档自动生成解说配音,上线有150+款包括不同方言和音色的AI智能配音主播。代表公司有九锤配音、加音、XAudioPro、剪映等。
(2)乐曲/歌曲生成
AIGC在词曲创作中的功能可被逐步拆解为作词(NLP中的文本创作/续写)、作曲、编曲、人声录制和整体混音。目前而言,AIGC已经支持基于开头旋律、图片、文字描述、音乐类型、情绪类型等生成特定乐曲。通过这一功能,创作者即可得到AI创作的纯音乐或乐曲中的主旋律。2021年末,贝多芬管弦乐团在波恩首演人工智能谱写完成的贝多芬未完成之作《第十交响曲》,即为AI基于对贝多芬过往作品的大量学习,进行自动续写。
图像属性及部分编辑
属性编辑部分,可以直观地将其理解为经AI降低门槛的PhotoShop。用户可以通过简单的操作,对图像进行旋转、裁剪、缩放、调整色彩、添加滤镜、文字、水印等效果。例如,iLoveIMG1就是一个提供多种图像编辑工具的在线平台,可以帮助用户快速处理图像文件。
部分编辑部分,是指对图像的局部区域进行修改或替换,如去除背景、去除物体、换脸、换衣等。这种编辑需要AI具有较强的图像理解和生成能力,以保证编辑后的图像自然和逼真。例如,Pixlr1就是一个提供部分编辑功能的在线图像编辑器,可以让用户轻松地实现背景消除、物体移除、面部模糊等效果。
四、AIGC的商业模式
AIGC的商业模式主要有以下四种:
(1)平台模式
平台模式是指提供AIGC技术服务的平台,通过收取使用费或订阅费来盈利。这种模式的优势是可以覆盖多个领域和场景,为用户提供灵活和便捷的AIGC服务。例如,OpenAI的GPT-3就是一个典型的平台模式,它提供了一个开放的API,让用户可以根据自己的需求来生成各种类型的内容。另一个例子是无界AI,它是一个专注于图像生成的平台,可以根据用户输入的文字或图片来生成高质量的图像。
(2)产品模式
产品模式是指针对特定领域或场景,开发出具有特色和价值的AIGC产品,通过销售产品或提供增值服务来盈利。这种模式的优势是可以深入挖掘用户需求,提供更加专业和个性化的AIGC体验。例如,小冰岛就是一个产品模式的AIGC应用,它是一个基于人工智能的社交平台,让用户可以创建自己的虚拟岛屿,并与人工智能个体进行对话和互动。另一个例子是Jasper,它是一个基于GPT-3的邮件自动回复工具,可以帮助用户快速处理邮件事务。
(3)内容模式
内容模式是指利用AIGC技术来生产内容,并通过内容分发或广告等方式来盈利。这种模式的优势是可以大幅降低内容生产成本和时间,提高内容质量和效率。例如,倒映有声就是一个内容模式的AIGC应用,它利用TTS技术来生成高质量的音频内容,并与音频客户端“云听”合作,提供音频内容服务。另一个例子是NarrativeScience,它利用NLP技术来生成新闻报道和财务报告,并与多家媒体和企业合作,提供数据驱动的内容服务。
(4)模型训练费用
模型训练费用是指通过提供AIGC技术所需的数据和算力资源,收取相应的费用来盈利。这种模式的优势是可以为AIGC技术提供必要的支持和保障,降低技术门槛和成本。例如,谷歌云平台就提供了多种数据和算力服务,帮助用户训练和部署AIGC模型。另一个例子是清华大学开源了其自研的大规模中文预训练语言模型CPM-Generate,并收取一定的使用费用。
五、AIGC的挑战和展望
AIGC作为一种基于人工智能技术的内容生成方式,近年来在各个领域展现出了强大的应用潜力和商业价值,引发了社会各界的广泛关注和热议。然而,AIGC的发展也面临着技术瓶颈、数据质量、伦理道德、版权保护等方面的挑战,需要持续创新和规范管理。同时,AIGC也有望成为新型的内容生产和消费基础设施,塑造数字内容生产与交互新范式,持续推进数字文化产业创新。本部分将从以下三个方面对AIGC的挑战和展望进行分析。
1.AIGC面临的主要挑战
(1)技术瓶颈
尽管AIGC技术在近年来取得了长足的进步,但仍然存在一些技术瓶颈,限制了AIGC的生成能力和应用范围。主要表现在以下几个方面:
-数据依赖性。AIGC技术通常需要大量的数据来训练模型,而数据的获取、清洗、标注等过程往往耗时耗力,且容易受到数据质量、数据偏差、数据隐私等因素的影响。此外,不同领域和场景下的数据特征也有所差异,导致模型的泛化能力和迁移能力受到限制。
-生成质量。AIGC技术虽然可以生成各种类型和风格的内容,但生成内容的质量仍然有待提高。主要问题包括生成内容存在逻辑错误、语法错误、语义不通、信息冗余、信息缺失、信息不一致等现象,以及生成内容缺乏创新性、多样性、个性化等特点。
-生成效率。AIGC技术虽然可以提高内容生产效率,但生成效率仍然受到模型复杂度、计算资源、用户需求等因素的制约。主要问题包括模型训练和推理需要消耗大量的算力和时间,以及用户对生成内容的反馈和修改需要多次迭代和交互。
(2)数据质量
数据是AIGC技术的重要基础,数据质量直接影响到模型性能和生成效果。然而,在实际应用中,数据质量往往存在以下几个方面的问题:
-数据不足。对于一些特定领域或场景下的内容生成任务,可能缺乏足够数量和类型的数据来支撑模型训练。例如,在医疗领域,由于医学知识的专业性和隐私性,获取医疗文本或图像等数据较为困难。
-数据不平衡。对于一些涉及多类别或多风格的内容生成任务,可能存在数据分布不均匀的情况,导致模型在某些类别或风格上表现不佳。例如,在音乐领域,由于不同音乐流派或风格的流行程度不同,获取相应音乐数据可能存在偏差。
-数据不准确。对于一些需要高精度或高可信度的内容生成任务,可能存在数据错误或虚假的情况,导致模型学习到错误或误导性的信息。例如,在新闻领域,由于网络上存在大量的谣言或假新闻等信息,获取真实可靠的新闻数据较为困难。
(3)伦理道德
伦理道德是AIGC技术发展中不可忽视的一个方面,涉及到人工智能与人类社会之间的价值观、道德观、法律观等问题。主要表现在以下几个方面:
-人机关系。AIGC技术可以生成逼真且具有情感表达能力的内容,如聊天机器人、数字人等,可能影响到人类与机器之间的关系和互动方式。例如,在社交领域,用户可能对聊天机器人产生过度依赖或情感寄托等现象。
-人类创造力。AIGC技术可以生成具有创造力和创新性的内容,如艺术作品、文学作品等,可能影响到人类自身创造力和创新力的发展和认知。例如,在文化领域,用户可能对人工智能生成的内容产生过度信赖或盲目崇拜等现象。
-人类责任。AIGC技术可以生成具有影响力和操纵力的内容,如新闻报道、广告宣传等,可能影响到人类社会中的公共利益和个人权益等问题。例如,在政治领域,用户可能对人工智能生成的内容产生过度信服或误导等现象。
(4)版权保护
版权保护是AIGC技术应用中一个亟待解决的问题,涉及到人工智能与原创作者之间的知识产权归属、利益分配、责任追究等问题。主要表现在以下几个方面:
-来源确定性。AIGC技术可以生成各种来源不明或来源混杂的内容,并且难以区分其真伪或原创性。例如,在教育领域,学生可能使用AIGC技术来生成抄袭或伪造的作业或论文等。
-归属确定性。AIGC技术可以生成各种无作者或多作者参与归属确定性。AIGC技术可以生成各种无作者或多作者参与的内容,如AI绘画、AI写作、AI作曲等,这就导致了内容的-归属难以确定。例如,如果一个人使用AIGC技术生成了一幅画,那么这幅画的作者是这个人,还是AIGC技术,还是AIGC技术背后的数据和算法?如果多个人使用同一个AIGC技术生成了类似的内容,那么这些内容的归属又如何划分?这些问题涉及到知识产权的界定和保护,需要明确的法律规范和制度安排。
2.AIGC的展望
AIGC作为一种基于人工智能技术的内容生成方式,具有巨大的发展潜力和前景。根据多份报告的预测,AIGC的市场规模将在未来几年内快速增长,达到千亿甚至万亿级别。AIGC的应用场景也将不断拓展,涵盖消费互联网、产业互联网和社会价值等多个领域,产生变革性的影响。本部分将从以下三个方面对AIGC的展望进行分析。
-在消费互联网领域,AIGC将成为新型的内容生产基础设施,塑造数字内容生产与交互新范式,持续推进数字文化产业创新。目前,AIGC已经在传媒、电商、影视、娱乐等数字化程度高、内容需求丰富的行业取得重大发展,涌现了写作助手、AI绘画、对话机器人、数字人等爆款级应用,支撑着海量用户的内容创建和消费需求。未来,AIGC将进一步提高内容生产效率和质量,拓展内容生产范围和类型,丰富内容消费方式和体验,为用户提供更多元和个性化的内容服务和体验,并与用户进行交互和沟通。例如:
写作助手:AIGC技术可以帮助用户完成各种类型的写作任务,如小说、诗歌、论文、代码等,并提供修改、优化、检查等功能,提升写作效率和质量。
AI绘画:AIGC技术可以根据用户输入的文字或图片生成各种风格和主题的图像,如卡通画、油画、素描等,并提供调整、编辑、保存等功能,满足用户的创意表达需求。
对话机器人:AIGC技术可以与用户进行自然语言对话,回答各种问题,提供各种信息,如智能问答、智能推荐、智能聊天等,并提供反馈、学习、优化等功能,增强用户的交互体验。
数字人:AIGC技术可以生成具有真实外貌和声音的虚拟人物,并赋予其个性和情感,如虚拟歌手、虚拟主播、虚拟明星等,并提供定制、控制、分享等功能,打造用户的数字形象。
-在产业互联网领域,基于AIGC技术的合成数据(syntheticdata)迎来重大发展,合成数据将牵引人工智能的未来。合成数据是指利用AIGC技术生成的模拟真实世界数据的数据集,用来训练、测试、验证AI模型。合成数据具有以下优势:
降低数据采集和标注成本:利用AIGC技术可以快速生成大量高质量的数据集,无需花费大量人力和时间去采集和标注真实世界数据。
提高数据质量和多样性:利用AIGC技术可以精确控制数据集的分布和特征,避免真实世界数据存在的噪声和偏差,并且可以生成难以获取或缺乏的数据类型。
保障数据隐私和安全:利用AIGC技术可以生成与真实世界数据无关联或低关联的数据集,避免泄露或滥用真实世界数据中包含的敏感或隐私信息。
合成数据在各个行业都有广泛的应用场景,如医疗影像诊断、自动驾驶模拟训练、金融风控模型验证等。未来,合成数据将成为AI模型训练开发的强大助推器,推动实现AI2.0。
-在社会价值领域,AIGC将为教育、医疗、公益等领域带来积极影响,提升社会福祉水平。例如:
教育:AIGC技术可以为教育领域提供智能教学辅助工具,如智能教材生成、智能习题生成、智能评估反馈等,并提供个性化学习路径和内容推荐,提高教育质量和效果。
医疗:AIGC技术可以为医疗领域提供智能医疗辅助工具,如智能诊断报告生成、智能药物设计生成、智能康复方案生成等,并提供个性化医疗服务和内容推荐,提高医疗水平和效率。
公益:AIGC技术可以为公益领域提供智能公益辅助工具,如智能捐赠建议生成、智能志愿活动生成、智能公益报道生成等,并提供个性化公益服务和内容推荐,提高公益参与度和影响力。返回搜狐,查看更多
抖音:ChatGPT等人工智能生成内容要显著标识并负责
快科技5月9日消息,在内容创作领域,生成式人工智能技术降低了创作的门槛,丰富了互联网内容生态。
但与此同时,人工智能生成内容存在识别难的特点,也带来了虚假信息、侵权等问题。
对此,抖音今日发布关于人工智能生成内容的平台规范暨行业倡议,要求创作者、主播、用户、商家、广告主等平台生态参与者,在抖音应用生成式人工智能技术时,遵循以下规范:
1、发布者应对人工智能生成内容进行显著标识,帮助其他用户区分虚拟与现实,特别是易混淆场景。
2、发布者需对人工智能生成内容产生的相应后果负责,无论内容是如何生成的。
3、虚拟人需在平台进行注册,虚拟人技术使用者需实名认证。
4、禁止利用生成式人工智能技术创作、发布侵权内容,包括但不限于肖像权、知识产权等。一经发现,平台将严格处罚。
5、禁止利用生成式人工智能技术创作、发布违背科学常识、弄虚作假、造谣传谣的内容。一经发现,平台将严格处罚。
与此同时,平台也将对人工智能生成内容衍生的问题进行治理,同时提供以下技术能力,充分保护用户权益:
1、平台将提供统一的人工智能生成内容标识能力,帮助创作者打标,方便用户区分。
2、平台将提供虚拟人的注册能力,并对已注册的虚拟人形象进行保护。
3、平台将提供用户反馈渠道,方便用户反馈违规生成内容。
常见问题:
1、人工智能生成内容指什么?
指利用生成式人工智能技术,自动生成的视频、图像、文本等内容。本规范重点针对人工智能生成的视频、图片,和衍生的虚拟人直播。
2、使用人工智能技术辅助创作是否违反了平台规范?
使用人工智能辅助创作本身,并不会违反平台规范,是被允许的行为。但利用其生成和发布虚假、侵权等内容会违反平台规范。
3、人工智能生成内容会获得更好的流量吗?
使用人工智能技术辅助创作,相较于用其他手段创作,并不会带来特殊的流量优势。我们更注重内容本身的质量,如果你认为使用该技术有利于达成这点,那么可以考虑使用其辅助创作。相反,单纯地利用其低成本的优势,生成低质内容,是平台不提倡的。
4、我的个人作品或形象被用于人工智能生成怎么办?
使用人工智能技术侵犯用户权益,是我们重点治理的行为。我们面向用户,提供了专门的侵权反馈入口,可以随时反馈给平台进行处理。
5、平台允许使用虚拟人技术吗?
平台允许适当使用虚拟人技术,但必须遵循规范。使用虚拟人进行直播,或创建以虚拟人为人设的账号,必须对相应的虚拟人形象在平台注册。虚拟人背后的真人使用者,必须进行实名注册和认证。使用已注册的虚拟人形象进行直播时,必须由真人驱动进行实时互动,不允许完全由人工智能驱动进行互动。
【本文结束】如需转载请务必注明出处:快科技
责任编辑:随心
研究报告:AIGC人工智能生产内容行业趋势分析
同伴客数据与至顶科技共同编写了《AIGC人工智能生产内容行业研究报告》。AIGC被资本给予厚望,AIGC行业迎来的新的发展契机,但在政策、商业和法律等层面,仍然存在很大风险。
前言:
2022年8月,美国科罗拉多州举办的新兴数字艺术家竞赛中,一位没有绘画基础的参赛者提交AIGC绘画作品《太空歌剧院》,获得了比赛“数字艺术/数字修饰照片”类别一等奖,引起业内关于“AI是否会取代艺术家”的一场争论。
这也使得从2022年下半年开始,“AIGC”接棒“元宇宙”成为全球关注的焦点和热议话题,各行各业都在积极探寻相关领域在AIGC助力下的崭新发展方向。国内外大企业纷纷在AIGC领域进行布局,同时业内也涌现了一大批新兴的科技型创业公司,在资本的助力下,AIGC行业迎来的新的发展契机。
AIGC已经引起了各行业的广泛关注,如何将AIGC与各行业深度融合,进行业务模式的创新,以及如何避免其中可能存在的政策、商业和法律风险,成为了业界人士共同关心的议题。
本研究报告参考了AIGC业内众多机构的研究成果,以及AIGC资深从业者的观点和实践经验。从AIGC的行业发展概况出发,系统梳理了AIGC与各行业业务结合的众多场景和业务模式,同时整理了AIGC行业尚待解决的一些问题。希望本研究报告能为读者打开接触AIGC实践的窗口,助力新经济领域的实践探索。
第一章:AIGC概念与国内外发展概况
1、AIGC概念与发展历程
AIGC,全称为:“AIGeneratedContent”。即人工智能生产的内容,是继专业生产内容(PGC)、用户生产内容(UGC)之后诞生的,利用AI技术自动生成内容的新型生产方式。
在AIGC场景下,人工智能可灵活运用于写作、编曲、绘画和视频制作等创意领域。初步估计,到2025年,人工智能生成数据占比将达到10%。根据《GenerativeAI:ACreativeNewWorld》的分析,AIGC有潜力产生数万亿美元的经济价值。
(图:PGC、UGC、AIGC对比)AIGC尚处于早期阶段,其精准概念范围和商业落地路径尚无行业共识,其发展可以大致分为以下三个阶段:
早期萌芽阶段:20世纪50年代到90年代中期,受限于科技水平,AIGC仅限于小范围实验。
沉积积累阶段:20世纪90年代中期到21世纪10年代中期,AIGC从实验向实用转变,受限于算法,无法直接进行内容生成。
快速发展阶段:21世纪10年代中期至今,深度学习算法不断迭代,AI生成内容种类多样丰富且效果逼真。尤其是近几年来,AIGC的发展迅速,从原来作为边缘侧服务于企业、机构的角色,变为了现在C端零基础用户都可以使用的创作工具。开发侧重点上,AIGC也从原先用于翻译、语音合成以及重复性工作,转变为了更注重应用层面,用户能够便捷操作的方向。
AIGC在近年来的大发展主要源于三个契机:
1)更大的模型
数据表明,至少在文本生成领域,更大的模型有更好的效果。在过去5年中,随着算力和算法的提升,模型参数量提升了3个数量级。2017年第一版生成模型只有1亿参数,而最新的模型有超过1000亿的参数。
2)高质量图像生成引起的广泛传播
文本生成模型gpt3达到百万用户用了2年半,同样的里程碑,代码生成模型copilot用了半年,图像生成模型dalle用了2.5个月,另一个图像生成模型StableDiffusion用了不到一个月。
3)更多的数据形态
在2021年之前,AIGC生成的还主要是文字,而新一代的模型可以处理任何内容格式,文字、语音、代码、图像、视频、3D模型、游戏机的按键、机器人的动作等等。在不断地把不同类型的数据用同一种思路做抽象,且都取得了很好的效果之后,我们隐约发现了一条可能通往通用人工智能(AGI)的路。
2022年AIGC发展速度惊人,年初还处于技艺生疏阶段,几个月之后就达到专业级别,足以以假乱真,这让花费毕生所学进行创作的从业人员倍感焦虑和紧张。同时,AIGC的迭代速度呈现指数级爆发,这其中深度学习模型不断完善、开源模式的推动、大模型探索商业化的可能,成为AIGC发展的“加速度”。
近年来资本市场一片寒冬,但AIGC领域却在全球范围逆势向上,不断传来AI智能初创公司获得新一轮融资的利好消息。目前国内外知名科技公司都完成了AIGC布局,谷歌、META、微软,百度、阿里、字节等国内外科技巨头悉数在AIGC领域有所投入。新晋AIGC行业独角兽公司同样层出不穷,以各式各样的“AI炫技”名声大噪,迅速完成了原始用户积累和品牌影响力扩散。因此2022年被称为“AIGC元年”,AIGC有望接棒元宇宙成为2023年科技和资本圈的最热门概念。
(AI绘图案例)2、海外AIGC发展现状
2022年8月,美国科罗拉多州举办的新兴数字艺术家竞赛中,一位没有绘画基础的参赛者提交AIGC绘画作品《太空歌剧院》,获得了比赛“数字艺术/数字修饰照片”类别一等奖,引起业内关于“AI是否会取代艺术家”的一场争论,也将AIGC概念推向新高潮。
随着大众对于AIGC的关注度持续上升,AIGC领域的融资规模也在近期快速扩张,目前已经出现多家估值超10亿美元的独角兽公司。
10月19日,主打文字生成的AIGC公司Jasper.ai宣布完成1.25亿美元的A轮融资,估值达到15亿美元。几乎同一时间,StabilityAI宣布获得1.01亿美元,公司宣布会继续研发用于生成图片、语言、音频、视频和3D的AI生成模型,投后估值达10亿美元。
(AI绘图案例)国外AIGC领域既有科技巨头谷歌、META、微软等,也不乏AIGC的新晋独角兽StabilityAI、Jasper、OpenAI等,并且科技公司很快又将AI作画的热度延续到了AI生成视频等领域。从Meta宣布由文本到视频的系统Make-A-Video,到谷歌宣布的可以从简单的文本提示中生成高清视频的ImagenVideo和Phenaki,AIGC在海外市场迅速发展。
目前具有参照意义的海外公司主要有:
1)Zyro:围绕垂直业务场景,结合业务knowhow组织相关AIGC能力
围绕电商场景,通过AIGC生成网站搭建过程中所需的各类素材,具体业务包括针对性生成公司介绍、企业价值、Slogan、自动提升图片清晰度、自动生成logo等。
2)Nvidia:构建技术矩阵,使其最终服务于创作型工具平台
在视觉生成研究领域始终位于前沿,代表作品包括CycleGAN、GauGAN、EditGAN、GANverse3D、InstantNeRF等。
3)OpenAI:将其底层模型对外开放商用,开创基础设施型的商业模式
GPT-3目前已经开始对外提供API,并分为四种模型按照用量对外收费。
4)Gliacloud:拼凑式视频生成代表
输入文本链接,软件能够自动对其中的标题和文字进行区分表示,并根据不同层级自动匹配素材和文字的转场、格式等,进而形成说明式的视频。据公开数据,该方式能够增加10倍的视频产量。
类似公司还包括:Gliacloud、Synths.video、lumen5、Pencil。
5)Rosebud.ai:可结合营销数据生成无版权纠纷的图像
Rosebud.ai能够生成非真实的人脸图像,并在该图像中匹配相关衣物等所需素材。此外,模型面孔可以根据对应受众的相关数据进行调整。该公司声称,其生成模型能够使活动点击率提升22%。
类似公司还包括:GeneratedPhotos。
6)Persado:结合精准用户画像,实现个性化文本营销
Persado的平台将营销创意分解为六个关键要素:叙事、情感、描述、号召性用语、格式和文字定位。通过组合各类元素,该平台能够为每位客户确定交流的个性化措辞。该平台已被多家公司用于促销电子邮件、社交媒体广告、店内展示横幅甚至广播内容等,以提高品牌参与度和转化率。
3、我国AIGC发展现状
资料显示,国内大厂百度、腾讯优图、阿里巴巴、快手、字节跳动、网易、商汤、美图等都在AIGC领域有所投入,中国信通院也在2022年联合京东探索研究院发布了AIGC白皮书,对行业进行了深入剖析和研究。
2022年11月9日,百度创始人兼首席执行官李彦宏表示,过去一年无论是在技术层面还是商业应用层面,人工智能都有了巨大的进展,有些甚至是方向性的改变。其中人工智能技术方向性改变体现就是AIGC。
李彦宏判断AIGC将迎来三个发展阶段:
“助手阶段”,AIGC辅助人类进行内容生产;
“协作阶段”,AIGC以虚实并存的虚拟人形态出现,形成人机共生的局面;
“原创阶段”,AIGC将独立完成内容创作。
其他国内大厂中,腾讯打造的写稿机器人“梦幻写手”;阿里巴巴旗下的AI在线设计平台Lubanner,帮助营销人员生产Banner;字节跳动旗下的剪映以及快手云剪都能提供AI生成视频;网易推出的一站式AI音乐创作平台“网易天音”等等。
随着AIGC的火热,国内也涌现了一批成长迅速的创业公司,代表企业如下:
1)小冰科技
2021年完成A轮融资,该轮融资由高瓴领投,五源、Neumann、IDG、GGV纪源资本及上轮投资人北极光与网易公司跟投。2022年完成10亿元B轮融资,投资方尚未披露。
主营方向:小冰是全球领先的人工智能科技公司,旗下小冰框架是全球承载交互量最大的完备人工智能框架之一,在开放域对话、多模态交互、超级自然语音、神经网络渲染及内容生成领域居于全球领先。
AIGC相关亮点:作为"AIbeing"派虚拟人。小冰的产品始终是人+交互+内容。具体包括虚拟人(夏语冰等somebodyinstance、虚拟男友等nobodyinstance和国家队人工智能裁判与教练系统观君等在垂直场景中工作的虚拟人类)、音频生成(主攻超级语言及歌声,在线歌曲生成平台与歌手歌声合成软件Xstudio)、视觉创造(毕业作品集《或然世界》、为国家纺织品开发中心、万事利等数百家机构提供了图案和纹样设计)、文本创造(2017年即推出小冰诗集)、虚拟社交、GameAI(XiaoiceGameStudio)等。
商业客户已覆盖金融、智能车机、零售、体育、纺织、地产、文旅等十多个垂直领域,并提出了以"人力"的逻辑去进行商业报价的虚拟人商业模式。
2)同伴客数据
2022年完成数千万来自W&M的战略融资。
主营方向:同伴客数据是一家致力于通过数字科技为人类释放无限潜能的科技公司。核心产品是TBanic数字员工基础平台,集成了基于“DARD”技术(数据-Data、人工智能-AI、机器流程自动化-RPA、数字人-DigitalHuman)的数字员工开发套件,客户可以根据不同的业务场景,构造出具备对应工作技能的数字员工。同伴客的解决方案覆盖数字蓝领、数字白领和数字金领三个层级,主要包含AIGC数字员工、数据洞察数字员工、RPA数字员工、金融交易数字员工、人工增强数字员工等相关产品。目前已服务于全球超过200家客户,其中不乏世界500强企业、大型国央企和知名高校与科研院所。
AIGC相关亮点:以虚拟人数字员工的形式,为客户直接提供功能强大的AIGC机器人,涵盖了绘图、文字撰写、视频处理等相关功能,同时集成PRA、数据处理和虚拟人等技术,可以为客户提供完整的解决方案。目前同伴客的AIGC机器人作为教学仪器,在高校教育市场拥有数百家客户沉淀和绝对的竞争优势,同时也在众多世界500强企业和大型国央企中得到落地应用。
3)DeepMusic(灵动音科技)
2018年完成数千万A轮融资,由TME领投。
主营方向:公司致力于运用AI技术从作词、作曲、编曲、演唱、混音等方面全方位降低音乐创作及制作门槛,为音乐行业提供新的产品体验,提升效率。
AIGC相关亮点:产品包括针对视频生成配乐的配乐猫、支持非音乐专业人员创作的口袋音乐、可AI生成歌词的LYRICA、AI作曲软件LAZYCOMPOSER。目前已与国内多家音乐平台厂商达成合作。其音乐标注团队已形成了全球最精确的话语歌曲音乐信息库。
4)倒映有声
2021年完成Pre-A轮融资,投资机构为“中文在线”,温石企业顾问集团担任本轮融资独家财务顾问。
主营方向:一家以技术为核心的创新型公司和无人驱动数字分身技术解决方案供应商,通过自研神经渲染技术和TTSA技术,实现基于文本实时生成高质量语音(音频)和动画(视频),致力于成为AI数字人神经渲染引擎。
AIGC相关亮点:倒映有声将其虚拟人的高自然度归结于神经渲染(NeuralRendering)、TTSA(基于文本和语音合成实时生成音频和视频)、ETTS(富情感语音合成)、DigitalTwin。通过神经渲染技术快速构建AI数字分身,通过语音+图像生成技术,生成和驱动数字分身的唇形、表情、动作、肢体姿态,创造表情自然、动作流畅、语音充满情感的高拟真度数字分身IP。2021年3月倒映有声和音频客户端「云听」签署战略合作协议。
5)超参数
超参数科技宣布完成1亿美元B轮融资,本轮融资由红杉中国领投,老股东五源资本、高榕资本跟投。
主营方向:超参数科技是一家专注于AI领域的科技公司,致力于「打造有生命的AI」,创造一个10亿人与100亿AI共同生活的虚拟世界。超参数围绕L1-L4技术路径打造极致的AIBot,逐步为广泛用户带来全新的虚拟世界体验。
AIGC相关亮点:超参数科技提供的AIbot支持玩家陪玩(3D生存游戏AI猎户座α)、多人团队竞技(球球大作战)、非完美信息博弈AI(斗地主、德扑、麻将等)等。自有游戏AI平台“Delta”采用全新的“AI+游戏”研发管线,为开发侧和体验侧两端带来范式创新。
6)影谱科技
2018年完成D轮13.6亿元融资,投资方包括商汤科技Sensetime、软银中国,东方明珠旗下产业投资基金、PAC、前海梧桐并购基金、朗盛资本等。
主营方向:影谱科技以人工智能视觉技术产业化为主要目标,是国内领先的智能影像生产技术提供商及应用方案提供商。公司专注于视觉内容的生产效率与呈现交互方式的技术研究,通过ACM(影像商业化引擎)、AGC(影像工业化引擎)和ADT(数字孪生引擎)三大引擎,面向媒体、文化、科教等多行业领域提供一站式的智能解决方案。
AIGC相关亮点:在视频生成相关领域支持结构化视觉分析、影像自动合成技术(将视频短片、图片、音轨等按照规定效果批量化自动拼接)、智能视频编辑(基于视频中多模态信息的特征融合进行学习,按照氛围、情绪等高级语义限定,对满足条件片段进行检测并合成)、视频内容生产(对视频中的镜头、元素和场景采用不同的生成方式,同时对组件的组合方式进行学习,实现视频的自动化生产)、行为动作分析、场景信息恢复、跨模态转换等。
第二章:AIGC产业发展分析
1、AIGC核心算法
AIGC技术主要涉及两个方面:自然语言处理NLP和AIGC生成算法。随着NLP(NaturalLanguageProcessing,自然语言处理)技术和扩散模型(DiffusionModel)的发展,AI不再仅作为内容创造的辅助工具,创造生成内容成为了可能。
近年来,AIGC的快速发展归功于生成算法领域的技术积累,其中包含了:生成对抗网络(GAN)、变微分自动编码器(VAE)、标准化流模型(NFs)、自回归模型(AR)、能量模型和扩散模型(DiffusionModel)。可以看到,大模型、大数据、大算力是未来的发展趋势。算法模型的突破是近年来AIGC得以快速突破的催化剂,最常用的两个模式,即生成对抗网络和扩散模型。
生成对抗网络GAN(GenerativeAdversarialNetworks)2014年,IanJ.Goodfellow提出了GAN,是一种深度神经网络架构,由一个生成网络和一个判别网络组成。生成网络产生“假”数据,并试图欺骗判别网络;判别网络对生成数据进行真伪鉴别,试图正确识别所有“假”数据。在训练迭代的过程中,两个网络持续地进化和对抗,直到达到平衡状态,判别网络无法再识别“假”数据,训练结束。
GAN被广泛应用于广告、游戏、娱乐、媒体、制药等行业,可以用来创造虚构的人物、场景,模拟人脸老化,图像风格变换,以及产生化学分子式等等。
优点:能更好建模数据分布。无需利用马尔科夫链反复采样,无需在学习过程中进行推断,没有复杂的变分下界,避开近似计算棘手的概率的难题。
缺点:难训练,不稳定。生成器和判别器之间需要很好的同步,但是在实际训练中很容易判别器收敛,生成器发散。两者的训练需要精心的设计。可能会出现模式缺失(ModeCollapse)问题。GANs的学习过程可能出现模式缺失,生成器开始退化,总是生成同样的样本点,无法继续学习。
(AI绘图的细节仍然非常粗糙)扩散模型DiffusionModel扩散模型是一种新型的生成模型,可生成各种高分辨率图像。在OpenAI,Nvidia和Google设法训练大模型之后,它们已经引起了很多关注。基于扩散模型的示例架构包括GLIDE,DALLE-2,Imagen和完全开源的稳定扩散。扩散模型已经拥有了成为下一代图像生成模型的代表的潜力。以DALL-E为例,能够直接通过文本描述生成图像,让计算机也拥有了人的创造力。
扩散模型的生成逻辑相比其他的模型更接近人的思维模式,也是为什么近期AIGC拥有了开放性的创造力。本质上,扩散模型的工作原理是通过连续添加高斯噪声来破坏训练数据,然后通过反转这个噪声过程来学习恢复数据。训练后,我们可以通过简单地将随机采样的噪声传递给学习的去噪过程来生成数据。
相比于其他模型,扩散模型的优势在于生成的图像质量更高,且无需通过对抗性训练,这使得其训练的效率有所提升。同时,扩散模型还具有可扩展性和并行性。
高斯噪声是一种概率密度函数符合正态分布的函数,当AIGC运用扩散模型来生成内容的时候,是通过在一副纯白的画布(随机白噪声)上逐步去噪来生成最终的目标画作。即用户给出的文本描述形容词,来从一个模糊的概念逐步具象。我们可以简化为多个正态分布函数的叠加,模型选择其中重叠的区间输出,这也是一个逐步缩小范围的过程。这与人类的思维模式很类似。简言之,在AI训练阶段,我们将数据集中上亿组图文对进行训练,提取特征值;生产过程中,通过添加文字描述,引入不同的特征值进行去噪,从而生产一副AI理解下的内容作品。例如,在当我们在脑海中想象一个画面的时候,比如:一只柯基通过一个小号玩火焰。我们的思维模式也是先有一只柯基,再去想象小号和火焰,最后将这些元素叠加在柯基身上。
简述完原理以后,我们可以通过目前非常先进的AI图像生成应用DALL-E2来举例阐述具体的工作过程:将文本提示输入到一个经过训练能够将提示映射到表示空间的文本编码器中;通过一个被称为“先验”(Prior)的模型,将文本编码映射到图像编码器中。这一图像编码器会捕获文本编码包含的信息和语义;图像编码器随机生成一个图像,这一图像是该语义信息的视觉表现。这一个过程和人类的思维模式相似。在生成的过程中,涉及到了文本编码器这一概念,目前主流的文本编码器是来自于OpenAI的Clip模型,其通过4亿组文字-图片对进行训练。当然,其中的模型训练都是基于英文实现,语言的区别又会给AIGC带来另一重挑战。
除了上述提到的AIGC生成算法模型以外,超级计算机和算力这些硬件作为基础设施也是不可或缺的。在机器学习的过程中,需要通过大量的训练来实现更准确的结果,这样的计算量普通的电脑是无法完成的,目前主要由英伟达A100构建的计算集群完成,而国内外的初创企业也会通过云实现。
2、AIGC数据与算力
数据、算力、算法是驱动AIGC发展的三驾马车,要实现AIGC的发展,这三者缺一不可。目前,结合自然语言的大模型与数据集已成为AIGC发展的软件基础,OpenAI的Clip模型基于4亿组高质量的英文图文对应数据训练而成;算力即权力将在AIGC数字时代更加凸显,StableDiffusion目前依赖于4000个英伟达A100的GPU集群,运营成本超5000万美金。为了让功能更加精确,未来还将更多地基于语种去开发垂直类的应用,便于更有目的性地为特定功能进行训练。
然而,AIGC的算法、算力和数据,都需要企业投入大量的资金,这就导致AIGC初创企业的经营成本居高不下。以新晋独角兽企业StabilityAI为例,该公司为维护一个拥有4000块英伟达A100GPU组成的算力群,总计花费超5000万美元。
较高的前期投入,要求AIGC企业用户规模能够迅速扩张。因为只有行业用户规模达到一定体量,才能够摊平成本,扭亏为盈。过去的经验表明,要在短时间内实现用户规模的快速增长,需要提供标准化的服务内容,毕竟标准的等于大众的,也等于成规模的用户需求满足。
而且,AIGC自身的特点,其实也限制了服务标准化的进程。由于AIGC生成内容具有不稳定性,内容质量层次不齐,无法形成统一的质量标准,一定程度上限制了用户规模的扩张,也限制了AIGC企业的赚钱能力的提升。
不仅如此,由于AIGC赛道正处于摸索阶段,公司战略以完善技术水平、考察消费者需求为主,大部分技术没有完善到足以实际运用到生产之中,而小部分相对成熟的应用,也为了吸引顾客,而处在免费试用的阶段。这就意味着,AIGC技术本身缺乏变现能力。投入增多,而收入不够,使得众多AIGC公司处于亏损状态。
并且,这种亏损状态,长期内,并不会因用户规模的增多而得到改善。因为,一旦行业用户规模达到一定体量,大厂们必然会加速入场,此时行业竞争加剧,一方面会促进企业增加成本投入;另一方面也会导致企业收入减少。那时,面对着AIGC有限的变现能力,加上持续不断的成本投入,势必对AIGC企业形成非常大的经营压力。
第三章:AIGC应用场景分析
1、AIGC应用场景汇总
按照AIGC的发展逻辑,主要可以分为3个阶段:一是AIGC内容生产技术完善阶段,能够实现文本、视频、图片生成以及三者的跨模态转换;二是具有多模态生成技术的聚合应用——虚拟人;三是AIGC内容生态聚合体——元宇宙。
未来,AIGC将有望成为数字内容创新发展的新引擎。
1)AIGC能够以优于人类的制造能力和知识水平承担信息挖掘、素材调用、复刻编辑等基础性机械劳动,从技术层面实现以低边际成本、高效率的方式满足海量个性化需求。
2)AIGC能够通过支持数字内容与其他产业的多维互动、融合渗透从而孕育新业态新模式。
3)助力“元宇宙”发展。通过AIGC加速复刻物理世界、进行无限内容创作,从而实现自发有机生长。
长期来看,AIGC与各行业的融合,有望创造更多的应用场景,大幅提高各行业的内容创作效率。
1)AIGC+传媒:写稿机器人、采访助手、视频字幕生成、语音播报、视频锦集、人工智能合成主播。
2)AIGC+电商:商品3D模型、虚拟主播、虚拟货场。
3)AIGC+影视:AI剧本创作、AI合成人脸和声音、AI创作角色和场景、AI自动生成影视预告片。
4)AIGC+娱乐:AI换脸应用(如FaceAPP、ZAO)、AI作曲(如初音未来虚拟歌姬)、AI合成音视频动画。
5)AIGC+教育:AI合成虚拟教师、AI根据课本制作历史人物形象、AI将2D课本转换为3D。
6)AIGC+金融:通过AIGC实现金融资讯、产品介绍视频内容的自动化生产,通过AIGC塑造虚拟数字人客服。
7)AIGC+医疗;AIGC为失声者合成语言音频、为残疾人合成肢体投影、为心理疾病患者合成医护陪伴。
8)AIGC+工业:通过AIGC完成工程设计中重复的低层次任务,通过AIGC生成衍生设计,为工程师提供灵感。
(图:PGC、UGC、AIGC对比)2、AIGC商业模式分析
商业模式上看,目前AIGC企业主要有以下几种商业模式:
1)作为底层平台接入其他产品对外开放,按照数据请求量和实际计算量计算:GPT-3对外提供API接口,采用的四种模型分别采用不同的按量收费方式。
2)按产出内容量收费:包括DALL·E、DeepDreamGenerator等AI图像生成平台大多按照图像张数收费。
3)直接对外提供软件:例如个性化营销文本写作工具AXSemantics则以约1900人民币/月的价格对外出售,并以约4800欧元/月的价格提供支持定制的电子商务版本。大部分C端AGC工具则以约80人民币/月的价格对外出售。
4)模型训练费用:适用于NPC训练等个性化定制需求较强的领域。
5)根据具体属性收费:例如版权授予(支持短期使用权、长期使用权、排他性使用权和所有权多种合作模式,拥有设计图案的版权)、是否支持商业用途(个人用途、企业使用、品牌使用等)、透明框架和分辨率等。
商业门槛来看,虽然AIGC是一个重技术的行业,但是由于众多开源平台的存在,以及软件技术的可复制性,单纯的技术和算法,很难成为AIGC行业的主要竞争壁垒。AIGC相关企业如果想建立长久的竞争优势,还需要在一体化解决方案、行业深度绑定、业务闭环等领域不断耕耘。应该说,技术是AIGC企业成功的必要条件,但不是充分条件,对于商业能力的把控,会是未来AIGC赛道中相关企业的竞争焦点。
1)打造一体化解决方案服务能力:AIGC本质上提供的是内容的生成工具,和传统的内容辅助编辑逻辑是相同的。采集、生产、媒资管理、分发消费等视频整个生命周期,一般都需要覆盖内容生成的全生命周期。
2)与行业的深度绑定关系:通过和行业形成深度绑定关系,接入相关平台或底层系统的,与原来的内容载体建立良好的合作关系,除去说明场景可行性外,还需要强调对方在基础架构上的配合意愿。
3)构建业务闭环:创作型的工具如何得到反馈的手段,需要新的模式形成闭环。需要从“拼接式”(需要大量的人工标注数据,只能针对具体任务,不会自我成长)到“进化式”(创造特定条件和核心能力,使之能够完成通用任务并自我成长),并与用户增加对话轮次、建立情感链接。
第四章:AIGC发展预测
1、AIGC发展前景
目前,科技圈和资本圈普遍对于AIGC的发展抱有很大的期望,AIGC有望接棒元宇宙,成为2023年科技圈的热点。
2022年7月,百度世界大会上李彦宏这样预言到:“未来十年,AIGC(人工智能自主生产内容)将颠覆现有内容生产模式。可以实现以十分之一的成本,以百倍千倍的生产速度,去生成AI原创内容。”
2022年9月,红杉资本联合GPT-3,发布了一篇名为《生成式AI:一个创造性的新世界》的文章,并且立刻引爆了AIGC赛道。“人们的梦想:生成式AI将创造和知识工作的编辑成本降至零,生产巨大的劳动生产率和经济价值,以及相应的市值。”按照其中的理解,AI能够让人效突破现在技术条件的天花板,未来企业的增长将不再受制于人力和成本,企业的经营效率也会随之发生质变。
在移动互联网时代,关于未来的畅想,已经进行过很多次,从当初红极一时的元宇宙和Web3,就像给大众营造的一场科技幻想,跳脱出时间和空间的维度,充斥着对未来的无限期待,这也是很多极客的毕生夙愿。剧本是如此的相似,只不过这次的主角换成了AIGC。伴随着文本、图片、视频以及三者跨模态相互转化方面的技术不断突破,我们所熟悉的AI行业,正意欲重构人类生产力和生产关系的变革,这究竟是一时昙花,还是一片新的蓝海,还有待市场和时间的检验。
现在的AIGC仍处于早期摸索期,发展的有限程度导致了目前应用场景的有限。也许未来技术的突破,能够不断扩展AIGC的应用场景,但短期内各企业能做的,只是优化模型,从而提高其与应用场景的适配度。
公开数据显示,在未来2-3年间,AIGC的初创公司和商业落地方案将持续增加;到2030年,AIGC市场规模或将超过万亿人民币。
从PGC到UGC再到AIGC,AIGC能让人类突破内容生产力枷锁,高效率生成高质量内容,让人类进入到真正的元宇宙之中。若要AIGC能够满足元宇宙的需求,独立完成高质量、高精度的内容,AIGC技术层面还需要一定的发展,我们可以分为软硬件两个维度看,软件层面主要包括自然语言处理技术、AIGC生成算法模型和数据集,硬件层面主要是算力、通信网络。
从业务层面看,结合国内外发展情况,目前在AIGC的知识产权归属方面尚有法律空缺,且创作伦理问题也未得到有效解决,因此无论是技术还是商业层面,高质、干净的数据集对于模型训练及内容生成均有至关重要的影响。同时,随着AIGC逐步落地,其算力需求将大增,未来相关企业除用云计算之外,或组建自有算力集群,考虑到英伟达A100、H100出口受限,相关国产算力芯片将有机会获得增量市场。
从主题投资的角度看,区块链、元宇宙、Web3均描述了数字经济时代中宏大的应用场景,而去年被资本市场关注的虚拟人、NFT等只是其中的具体应用之一。未来,AIGC可能将是推动数字经济从Web2向Web3升级的重要生产力工具:一方面,其对现有的杀手级应用——短视频、游戏等具有颠覆式影响,或进一步扩大内容量、提高成瘾性,同时对社交和广告提供新的工具;另一方面,Web3开放、共建的价值观下,UGC、AIGC的内容会更具吸引力,二次创作、开放想象的浪潮将来临。目前AIGC已成为硅谷最新热门方向,国内一级市场、互联网大厂等对AIGC应用关注度也在快速提升中。
(AI绘图举例)2、AIGC待解决问题
尽管AIGC发展前景广阔,但也存在着很多难以解决的问题,影响了其商业化的进程。
1)技术不成熟
技术上来看,虽然当前生成的图片、文字已经可以用以商业用途,但还存在一些问题使得无法满足较高的质量要求。在不太关注细节的大场景图片生成中,AIGC的表现较好。但对于比较具体和细节的内容,生成的效果不尽如人意。这主要是由于自然语义的理解在处理一些空间关系上还存在一定的误差,同时业内大部分机构都在采用开源的OpenAI的Clip模型。其函数是开源的,但训练的数据集是封闭的,数据集的质量、合规性、风格偏向都会决定生成的内容质量。
2)版权不清晰
AIGC本质上是机器学习,因而无法避免使用大量的数据集执行训练,在这之中确实存在损害图片版权者的利益。对于艺术家来说,虽然认为这些平台侵害了自己的权益,但是现在仍没有完善的法律规定此类侵权行为,甚至在某些法律条文中,这种行为是合法的。
一方面,AIGC难以被称为“作者”。著作权法一般规定,作者只能是自然人、法人或非法人组织,很显然AIGC不是被法律所认可的权利主体,因此不能成为著作权的主体。但AIGC应用对生成的图片版权问题持有不同观点,图片属于平台、完全开源还是生成者,目前尚未形成统一意见。
另一方面,AIGC产生的“作品”尚存争议。传统意义上的作品是指文学、艺术和科学领域内具有独创性并能以某种有形形式复制的智力成果。AIGC的作品具有较强的随机性和算法主导性,能够准确证明AIGC作品侵权的可能性较低。同时,AIGC是否具有独创性目前难以一概而论,个案差异较大。
即使现在把自己的作品从数据集中删除也无法阻止自己风格作品的生成,首先,AI模型已经过训练,对应风格已经掌握。而且,由于OpenAI的CLIP模型(于训练StableDiffusion以理解文字和图像之间的联系),用户仍然可以调用特定的艺术风格。
对于AI项目方来说,让数据集每张图片都得到授权是不现实的,如果此类法案通过,那么AI行业的发展将受到很大的阻碍,或许是灭顶之灾。
3)壁垒不够高
AIGC产业链涉及环节众多。上游生成算法的环节,存在着一定程度上改进国外开源模型的情况。渲染、模型训练等环节,也大多依赖国外GPU。
目前各种各样的AIGC范式,大都建立在国外的论文、开源模型上。这些建立在开源模型上的AIGC并没有核心技术壁垒。即便辛苦做出的小幅度优化,往往会被开源方发布的新版本所抹平。
同时在应用场景上,目前AIGC只是工具链上的某个环节的增强,初创公司很难与完整工具链和生态的企业竞争。如国内虽然有大量项目对标新一代的Figma、Canva或者短视频创作工具,但是Figma已经集成了StableDiffusion的生成模型,而字节跳动这样的企业在短视频AIGC方面也有深厚的积累和创新。即使游戏领域,一个游戏引擎是一套非常复杂的工具链体系,也不仅仅是个渲染器。
目前,国内正在朝着自主可控的方向发展,这要求AIGC领域的创新型企业在加强原创性研究的同时,尽快将技术转化为知识产权,形成行业壁垒与竞争力。
4)商业不清晰
尽管AIGC为人类描绘了一个美好的未来,但是其商业路径并不足够清晰,客户的付费意愿也不是非常明确。目前各家公司为了抢占用户,很多都采用了免费体验的模式,而目前AIGC提供的服务,不管是绘图、文字还是视频,都很难精准的满足客户的需求,更多的是为专业设计人员提供思路和参考价值,其实际商业化价值仍然让客户抱有怀疑。
同时,最为一项工具属性较强的技术,AIGC尚未出现UGC时代的大平台、杀手级应用和现象级项目。AIGC虽然得到了资本的青睐,但商业模式清晰、能够获得持续稳定现金流、竞争壁垒较强的新兴公司尚没有出现,更多的是大公司在新技术领域不计成本的前沿布局。因此,AIGC技术发展和商业化进程不及预期的风险仍然较大。
参考资料:
《AIGC的十大前沿创新》孙思明
《国内外最值得关注的AIGC机构》量子位
《AIGC:Web3时代的生产力工具》宋嘉吉、金郁欣
《突然爆火的AIGC究竟是不是泡沫?》顾煜
《AIGC产业链全梳理》杨江凯
《人工智能生成内容(AIGC)白皮书(2022年)》中国信通院