博舍

人工智能发展现状及应用 人工智能介绍50字内容

人工智能发展现状及应用

导读:

人工智能(ArtificialIntelligence),英文缩写为AI。人工智能被认为是第四次科技革命的核心驱动力,目前许多领域都在探索AI技术的应用,可谓方兴未艾。那么什么是人工智能,它经历了怎样的发展历程,现阶段发展状况如何,它有哪些应用。本篇文章就为大家做个简单分享。同时也会为大家详细介绍一下百度的AI技术体系。

 

本文主要内容:

1.人工智能概念

①智能

②人工智能

2.人工智能的发展

①人工智能的发展历程

②AI是中国的机遇

3.AI与百度

①百度AI的发展历程

②百度AI的技术体系

③百度AI的场景化应用

 

 

1.人工智能概念

1.1智能

谈到人工智能,需要首先理解“智能”一词的具体含义。智能是指人类才具有的一些技能。人在进行各种活动的过程中,从感觉到记忆再到思维产生了智慧,智慧产生了人类本身的行为和语言,行为和语言统称为能力;智慧和能力结合在一起就是人工智能中的智能一词。

比如,人类的语言表达能力就是一种智能(语言智能);人类进行复杂数学运算的能力也是一种智能(数字逻辑智能);人类的交往能力也是一种智能(人际智能),人们对音调、旋律、节奏、音色的感知能力,也是一种智能(音乐智能)。他们都属于智能的范畴。

1.2人工智能

把智能的概念与人的逻辑理解相结合,并应用到机器中,让机器能更好的模拟人的相关职能,这就是人工智能。人工智能就是要让机器的行为看起来就像是人所表现出的智能行为一样。

人工智能概念,最早可以追溯到上世纪90年代初,这个时候需要提到一位科学家:图灵。

艾伦·麦席森·图灵(英语:AlanMathisonTuring,1912年6月23日—1954年6月7日),英国数学家、逻辑学家,被称为计算机科学之父,人工智能之父。

图灵最早定义了什么是人工智能,怎样去界定一个机器(或一个设备)是否具备智能。他最早提出了图灵测试(即:一个人在不接触对方的情况下,经过某种特殊的方式和对方进行一系列的问答,如果在某些时间之内,他无法根据这些问题判断对方是人还是计算机,那么我们就认为这台机器具备智能化的思维)。直到2000年左右,才真正有计算机通过了图灵测试,才实现了一个突破。在2014年图灵测试大会上,出现了一个通过图灵测试的机器(或者称为智能聊天的机器人)。这两年人工智能的高速发展,也印证了最早的图灵测试,这也让我们反向看到了图灵在人工智能定义方面做出的突出贡献。

现今,在做图灵测试时,判断这个设备是否具备人工智能,更多的还是从模拟人的角度来考量。但在当前科技背景下,人工智能需要涵盖更广的内容,它不仅仅要模拟人本身的职能,还需要具备一些扩展、替代甚至延伸的职能。

举个例子,在医疗领域,需要经常在实验室进行病毒化验,人处这样的实验环境下会比较危险,经常会出现一些事故,如果能够用机器替代人来做这些实验,这些事故就可以避免。此时,这台机器就不仅仅是在模拟人,而是在替代人,机器本身就具备了替代人的能力。

当前,很多人在担忧:人工智能的发展会不会对人类造成威胁。其实,目前人工智能还处于早期的阶段(或者称之为婴幼儿阶段),我们还处于弱人工智能时代。

当然,随着时间的推移,将来我们可能会把弱人工智能时代推进到强人工智能,甚至再往前推进到超人工智能和智能爆炸时代。但至少目前,我们离这样的时代还有非常远的距离,要实现这样的目标,需要非常多的时间积累,可能要通过几代人甚至十几代人的努力。所以大家不要有过多的担心,人工智能现在更多的还是用于服务人类,用来提高人们的工作效率。

上图引自MIT大学一位教授。

针对人工智能所覆盖的领域,这位教授提出一个观点:“我们要尽可能避免做这些容易“进水”的工作,以免被日后所淘汰掉”。

这张图水平面以下的工作,如存储,计算、甚至象棋活动等,已经被海平面淹没。在海平面边缘的工作,如翻译、驾驶、视觉和音频等,很有可能在未来的一段时间,随着技术的进步也会被淹没。再来看图上高海拔地区的工作,如艺术创新、科学研究,文学创作等,让人工智能替代人类去做这些工作,在现阶段是比较困难的。要让人工智能实现像人一样具备主观能动性,还需要比较长的时间。我们在选择工作,或者在做技术探索的时候,应该从更高的层面布局,而把那些可以被人工智能替代的工作交给计算机去做,这样我们就可以从一些重复性、冗余性的工作中抽离出来,去专门从事创造性的工作(比如艺术创作等)。

2.人工智能的发展2.1人工智能的发展历程

我们回顾一下人工智能发展的历程。

人工智能并不是特别新鲜的词,在计算机出现后不久,大家就已经开始探索人工智能的发展了。

1943到1956年这段时间,为人工智能的诞生期,期间有很多人尝试用计算机进行智能化的应用,当然此时不能称为人工智能,只是有类似的概念。

人工智能的分水岭是1956年达特茅斯会议,在本次会议上正式提出了AI这个词。

1956到1974年这段时间,是人工智能发展的黄金时代,是人工智能的第1个高速发展期,通常把这段时间称之为人工智能大发现时代。

1974到1980年这6年的时间里,进入了人工智能发展的第1个低谷,在这个低谷期,出现了非常多的问题,比如计算上的问题、存储上的问题、数据量的问题,这些问题限制了人工智能的发展。

1980到1987年这段时间是人工智能的第2个繁荣期。期间诞生了大量的算法,推动了神经网络的高速发展,同时出现了许多专业的科研人员,发表了许多创造性的论文。

1987到1993年这段时间是人工智能的第2个低谷期,期间有个词叫“AI之冬”。有大量的资本从AI领域撤出,整个AI科研遇到了非常大的财政问题,这是导致”AI之冬”的主要原因。

1993年之后,人工智能又进入到高速发展期,期间出现了许多经典案例,比如1997年IBM公司的深蓝案例,2001年IBM的沃森案例,2016年谷歌AlphaGo案例。这些案例是人工智能在应用层面的体现。

上图概括了人工智能的发展历程。

可以看到,从1956年达特茅斯会议AI这个词诞生,一直发展到现在,人工智能共经历了60多年的跌宕起伏,并不是仅在2016、2017这两年间才出现了人工智能这个概念。

从宏观上看,AI的发展历程经历了三次比较大的起伏。

第1次起伏是从1943年到1956年,首次出现了神经网络这个词,把人工智能推到一个高峰,期间出现了许多大发现。而第1次低谷使人工智能进入到了反思的阶段,人们开始探讨人工智能的应用。

第2次起伏是在上世纪80年代,期间BP算法的出现,神经网络新概念的普及,推动了人工智能又进入第2次高峰和发展。然而从1987年到1993年又进入到了了第2次低谷,这主要因为一些财政原因导致。

第3次起伏从2006年开始,由辛顿提出了深度学习的概念,把神经网络往前推动了一大步,也把人工智能推到了高速发展阶段,尤其是近几年在非结构化领域取得了许多突破(例如在语音与视觉方面),给人工智能进入商业化应用带来许多的基础性技术沉淀。

人工智能为什么会在前面的发展过程里遇到了那么多的坎坷?为什么在最近这几年会进入一个高速发展期?

我们归结了近几年人工智能高速发展的三点原因:

①算力飞跃

人工智能(尤其是深度学习),对底层计算能力的要求非常高。早期的计算受到了极大限制,从CPU发展到了GPU,使得算力几乎能达到几倍甚至十几倍量级的增长。再从GPU到TPU,计算速度能达到15~30倍的增长,使得在算力层面不断取得突破。此外,大量云资源的出现将我们计算的成本压到了最低,我们在处理海量计算的同时,也可以享受比较低的成本。再者,芯片技术的发展,使得端处理能力持续提高,这些都帮助我们在算力层面取得了很大的突破。

②数据井喷

从PC互联网时代到移动互联网时代,再到可穿戴设备的应用,都产生了大量的数据。这两年,每年产生的数据量可以达到50%左右的增长。2017年到2018年,这段时间内基本上每个月产生的数据量可以达到几十个亿的量级,数据量已经非常高。物联网的连接,能帮助我们把更多的数据采集回来,帮助我们在数据层面做更多的积累,这是数据井喷带来的积极影响。

③算法突破

近几年来,从机器学习到深度学习,算法不断取得突破。使得我们可以处理更多的大规模、无监督、多层次等复杂业务。

算法、算力、数据是人工智能的三要素,算力是骨骼,数据是血液和食物,算法就是大脑,三者不断取得突破,才能促进人工智能高速发展。

2.3AI是中国的机遇

人工智能技术的发展也促进了很多产业的发展。中国目前有非常好的历史机遇,不仅仅是在技术上有大量的积累,同时,国家也为人工智能的发展提供了非常好的政策环境。此外,市场空间、资金支持、人才储备,也都为人工智能的发展提供了非常好的条件。

通过上图可以看到,人工智能的研发人才目前还比较短缺。图上数据来源于领英在2017年所做的全球AI人才报告。以2017年的数据来看,全球人工智能专业的人才数量超过190万,在这190万人才中,美国处于第一梯队,有85万+;而中国在人工智能领域的人才积累比较少,从数据上来看,目前国内人工智能方面的专业技术人才可能只有5万+,当然这是2017年的数据,现在可能会有一些增长,但是量级也没有达到我们想象的那么大。

所以从国内目前来看,这约5-10万的AI技术人才,对比AI产业的高速发展需求,两者之间有巨大矛盾。那怎样更好的用这些人才作为突破,把人工智能方面的技术人才储备提高到百万级别。这正是整个百度(包括百度的教育合作与共建,包括百度所有对外输出的体系,包括我们今天所做的课程)所努力的方向,我们期望通过百度的技术赋能,真正的帮助人工智能取得更好的人才积累,真正培养一些在未来对人工智能行业有巨大贡献的专业人才,这是百度现在的定位目标。

AI浪潮已然到来,行业人工智能时代已经到来。目前,人工智能已经大量应用在2c和2b领域,怎么让人工智能跟具体行业有更好的接触,产生更多的积累,是我们正在重点探索的方向。

比如百度的搜索引擎,已经融入了很多AI元素。模糊匹配、拍照识图、深度挖掘检索等都应用到了大量的人工智能技术。

再如推荐系统,他会基于个人的一些喜好和历史阅读习惯来给用户做一些内容的推荐和匹配,这是很典型的结合大数据做的精准应用,实际上也属于人工智能的范畴。

再如人脸识别技术、语音技术、智慧交通和无人驾驶等,都是AI技术与行业应用的融合,并且这些技术正在不断取得突破。百度现在L4级别的无人驾驶车已经初步实现了一些小规模的量产,未来会有更多的人将真正的体会到无人驾驶给生活带来的便利。

3.AI与百度

3.1百度AI的发展历程

上图为百度在人工智能领域的发展轨迹,早在2009年,百度就开始尝试探索人工智能相关技术,直到2019年,百度用了近十年的时间布局人工智能。

2009年尝试性布局人工智能,2013年发布IDL,2014年成立硅谷实验室以及百度研究院,2015年首次发布DuerOS,2016年发布百度大脑1.0版本,同年,百度的自动驾驶技术进入试运营状态,2017年是百度人工智能技术高速发展的一年,不仅成立了深度学习国家实验室,同时也成立了硅谷第二实验室以及西雅图实验室,并且Apollo平台开始运行并对外推广,在2018年到2019年,DuerOS和Apollo平台发展到3.0版本,百度大脑发展到5.0版本。经过近十年的发展和积累,百度的人工智能技术目前处于相对领先的位置。

百度在人工智能领域领域取得的进展有目共睹,比如,百度成立了首个国家级AI实验室;2016年被美国《财富》杂志评选为深度学习领域四大巨头之一;百度的刷脸支付、强化学习、自动驾驶等技术入选MIT2017年全球十大突破性技术;在AI领域,百度的中国专利申请超过2000项。

3.2百度AI的技术体系

百度的技术体系非常全面,覆盖了计算体系、大数据技术体系以及人工智能技术体系等,在机器学习、深度学习、区块链、知识图谱、自然语言处理、量子计算等领域均有雄厚的技术积累。这些技术可以按内容划分成三个板块,第一是A板块(即AI技术板块),第二是B板块(即大数据板块),第三是C板块(即云计算板块)。这就是百度在2016年提出的ABC概念。从一开始的1.0版本,发展到如今的3.0版本,代表着百度在人工智能领域的整体布局。在人工智能领域的布局中,百度的探索不仅停留在最核心的技术上,也同时将核心技术与更多的领域相结合,如边缘计算、物联网(InternetofThings,IoT)和区块链等,得到了如ABC+区块链、ABC+DuerOS、ABC+Apollo等对外输出模式,向各行各业提供解决方案。

在A板块中,将百度大脑分成了不同的层次。最底层是算法层,包含机器学习和深度学习算法,使用百度的PaddlePaddle深度学习框架提供算法层的基础支撑;算法层之上为感知层,感知层可分为对声音的感知和对光的感知,其中,对声音的感知主要是语音技术板块,对光的感知主要是图像技术、视频技术、AR/VR等技术板块;在感知层之上是认知层,认知层更多的是处理人类听到和看到的内容,对其进行深度理解,深度理解需要自然语言处理(NLP/NLU)、知识图谱等技术作为支撑,同时也需要积累大量用户画像数据,这些技术能帮助人们快速的理解和分析人类听到和看到的内容,并对内容进行有效的反馈,这是认知层面的技术;在认知层之上是平台层,平台层将底层的内容进行融合、封装,对外提供开放、完整的AI技术,并引入大量的生态合作伙伴,共同探讨人工智能产业的布局。

百度人工智能整体技术体系,最底层是深度学习框架飞桨PaddlePaddle,作为底层计算框架,飞桨PaddlePaddle支撑着上层场景化能力与平台中的全部板块。在场景化能力与平台中,包含了诸多场景大板块,每个大板块下又细分为多个技术板块,比如语音板块包含了语音合成以及语音唤醒等技术板块;计算机视觉技术中的OCR技术,包括传统通用OCR识别,以及垂直领域OCR的识别,可以对30多个OCR识别领域进行精准识别,比如票据识别、证件识别以及文字识别等;在人脸/人体识别板块,同时也会引入图像审核以及图像识别方面的技术;在视频板块,有视频比对技术,视频分类和标注技术,以及视频审核技术;在自然语言处理板块,有机器翻译技术;知识图谱板块,有AR/VR技术。这些板块构成了人工智能体系的技术蓝图。

近两年来,人工智能技术在各行各业中的应用不断加深,实践证明,单一的技术在落地时会受到诸多限制,所以现在人工智能在落地时可能不仅仅用到某一个单独的技术板块,而是需要先把这些板块进行融合,然后再进行实际应用,比如在拍照翻译的应用场景下,既需要用到OCR技术,同时也用到NLP技术。因此在实际应用中,需要综合各个板块的技术,把不同的技术体系和技术内容有机地融合起来,再去解决行业中面临的痛点。

 

3.3百度AI的场景化应用

2014年到2015年期间,在计算机视觉领域的部分场景下,计算机视觉识别准确率已经超过了人眼识别。而利用深度学习技术的计算机听觉识别,在2017年左右也已经超过人耳听力极限。

人工智能业务场景化不仅依赖底层的硬件资源,也需要超大规模的标注数据,这是监督学习的特点,所以在人工智能早期研究中,有评论说“有多少人工就有多少智能”,这句话在特定角度来看是具有一定意义的。在监督学习中,训练模型需要庞大的标注数据,再结合GPU强大的数据处理能力去训练特定模型,也就是从算法的层面去做更多的工作,在训练模型的过程中需要发挥人的主观能动性,更好的解决在行业应用中出现的一些痛点,构建出行业专属的模型。

比如,将人体分析技术应用到实际行业场景中时,需要结合人脸识别技术和人体识别技术。可以通过基础手势识别,识别一个人在开车时有没有系安全带、是不是在打电话等。

利用人体分析技术,可以做到行为识别,首先设定特定区域,然后对区域内的人员行为进行识别,比如人群过密、区域越界、人员逆行、徘徊以及吸烟等,在特定场景下,行为识别能够帮助用户避免安全隐患。

自然语言处理有很多相关技术,比如说词法分析、词向量表示、语义相似度、短文本相似度、情感相似度分析等。这些技术用在不同的应用场景下。

在公检法系统应用中,为了避免出现非常严重的问题,如同案不同判,具体解决方案是当诉讼呈递给法官时,根据当前诉讼内容在公检法系统中寻找历史上类似的案件,参考历史类似案件的判决,给法官提供判案依据。

在媒体领域应用中,对基础的财经类新闻,可以由机器进行新闻文章的编写,即机器写作。这些技术都是基于NLP在相应领域做的智能化应用,可以让编辑或记者从重复性的工作中解脱出来。

人工智能从广义上来看,也包括大数据及云计算相关技术,这些技术也都涵盖在百度AI技术体系中。在大数据领域,主要包括数据采集、数据存储、数据分析以及数据可视化等,利用这些技术,我们在进行模型训练的时候,对数据进行科学的管理可以帮助我们提高模型训练效率。

百度AI技术体系也提供算力层面的支持,通过GPU服务器以及FPGA服务器提供的算力,更好的解决应用层面的问题。

百度AI就是这样一个从基础层,到感知层、认知层的完整体系,为多行业、多场景提供“一站式解决方案”,力求实现“多行业、多场景全面赋能”。

回顾

本篇文章,我们和大家分享了人工智能的相关概念,人工智能的发展历程,从中也可以看出AI是我们的历史机遇。同时本文也为大家详细介绍了百度的AI技术体系,经过10余年的努力,百度AI已经形成从基础层,到感知层、认知层的完整技术体系,为多行业、多场景提供“一站式解决方案”,力求实现“多行业、多场景全面赋能”。

研究报告:AIGC人工智能生产内容行业趋势分析

同伴客数据与至顶科技共同编写了《AIGC人工智能生产内容行业研究报告》。AIGC被资本给予厚望,AIGC行业迎来的新的发展契机,但在政策、商业和法律等层面,仍然存在很大风险。

前言:

2022年8月,美国科罗拉多州举办的新兴数字艺术家竞赛中,一位没有绘画基础的参赛者提交AIGC绘画作品《太空歌剧院》,获得了比赛“数字艺术/数字修饰照片”类别一等奖,引起业内关于“AI是否会取代艺术家”的一场争论。

这也使得从2022年下半年开始,“AIGC”接棒“元宇宙”成为全球关注的焦点和热议话题,各行各业都在积极探寻相关领域在AIGC助力下的崭新发展方向。国内外大企业纷纷在AIGC领域进行布局,同时业内也涌现了一大批新兴的科技型创业公司,在资本的助力下,AIGC行业迎来的新的发展契机。

AIGC已经引起了各行业的广泛关注,如何将AIGC与各行业深度融合,进行业务模式的创新,以及如何避免其中可能存在的政策、商业和法律风险,成为了业界人士共同关心的议题。

本研究报告参考了AIGC业内众多机构的研究成果,以及AIGC资深从业者的观点和实践经验。从AIGC的行业发展概况出发,系统梳理了AIGC与各行业业务结合的众多场景和业务模式,同时整理了AIGC行业尚待解决的一些问题。希望本研究报告能为读者打开接触AIGC实践的窗口,助力新经济领域的实践探索。

第一章:AIGC概念与国内外发展概况

1、AIGC概念与发展历程

AIGC,全称为:“AIGeneratedContent”。即人工智能生产的内容,是继专业生产内容(PGC)、用户生产内容(UGC)之后诞生的,利用AI技术自动生成内容的新型生产方式。

在AIGC场景下,人工智能可灵活运用于写作、编曲、绘画和视频制作等创意领域。初步估计,到2025年,人工智能生成数据占比将达到10%。根据《GenerativeAI:ACreativeNewWorld》的分析,AIGC有潜力产生数万亿美元的经济价值。

(图:PGC、UGC、AIGC对比)

AIGC尚处于早期阶段,其精准概念范围和商业落地路径尚无行业共识,其发展可以大致分为以下三个阶段:

早期萌芽阶段:20世纪50年代到90年代中期,受限于科技水平,AIGC仅限于小范围实验。

沉积积累阶段:20世纪90年代中期到21世纪10年代中期,AIGC从实验向实用转变,受限于算法,无法直接进行内容生成。

快速发展阶段:21世纪10年代中期至今,深度学习算法不断迭代,AI生成内容种类多样丰富且效果逼真。尤其是近几年来,AIGC的发展迅速,从原来作为边缘侧服务于企业、机构的角色,变为了现在C端零基础用户都可以使用的创作工具。开发侧重点上,AIGC也从原先用于翻译、语音合成以及重复性工作,转变为了更注重应用层面,用户能够便捷操作的方向。

AIGC在近年来的大发展主要源于三个契机:

1)更大的模型

数据表明,至少在文本生成领域,更大的模型有更好的效果。在过去5年中,随着算力和算法的提升,模型参数量提升了3个数量级。2017年第一版生成模型只有1亿参数,而最新的模型有超过1000亿的参数。

2)高质量图像生成引起的广泛传播

文本生成模型gpt3达到百万用户用了2年半,同样的里程碑,代码生成模型copilot用了半年,图像生成模型dalle用了2.5个月,另一个图像生成模型StableDiffusion用了不到一个月。

3)更多的数据形态

在2021年之前,AIGC生成的还主要是文字,而新一代的模型可以处理任何内容格式,文字、语音、代码、图像、视频、3D模型、游戏机的按键、机器人的动作等等。在不断地把不同类型的数据用同一种思路做抽象,且都取得了很好的效果之后,我们隐约发现了一条可能通往通用人工智能(AGI)的路。

2022年AIGC发展速度惊人,年初还处于技艺生疏阶段,几个月之后就达到专业级别,足以以假乱真,这让花费毕生所学进行创作的从业人员倍感焦虑和紧张。同时,AIGC的迭代速度呈现指数级爆发,这其中深度学习模型不断完善、开源模式的推动、大模型探索商业化的可能,成为AIGC发展的“加速度”。

近年来资本市场一片寒冬,但AIGC领域却在全球范围逆势向上,不断传来AI智能初创公司获得新一轮融资的利好消息。目前国内外知名科技公司都完成了AIGC布局,谷歌、META、微软,百度、阿里、字节等国内外科技巨头悉数在AIGC领域有所投入。新晋AIGC行业独角兽公司同样层出不穷,以各式各样的“AI炫技”名声大噪,迅速完成了原始用户积累和品牌影响力扩散。因此2022年被称为“AIGC元年”,AIGC有望接棒元宇宙成为2023年科技和资本圈的最热门概念。

(AI绘图案例)

2、海外AIGC发展现状

2022年8月,美国科罗拉多州举办的新兴数字艺术家竞赛中,一位没有绘画基础的参赛者提交AIGC绘画作品《太空歌剧院》,获得了比赛“数字艺术/数字修饰照片”类别一等奖,引起业内关于“AI是否会取代艺术家”的一场争论,也将AIGC概念推向新高潮。

随着大众对于AIGC的关注度持续上升,AIGC领域的融资规模也在近期快速扩张,目前已经出现多家估值超10亿美元的独角兽公司。

10月19日,主打文字生成的AIGC公司Jasper.ai宣布完成1.25亿美元的A轮融资,估值达到15亿美元。几乎同一时间,StabilityAI宣布获得1.01亿美元,公司宣布会继续研发用于生成图片、语言、音频、视频和3D的AI生成模型,投后估值达10亿美元。

(AI绘图案例)

国外AIGC领域既有科技巨头谷歌、META、微软等,也不乏AIGC的新晋独角兽StabilityAI、Jasper、OpenAI等,并且科技公司很快又将AI作画的热度延续到了AI生成视频等领域。从Meta宣布由文本到视频的系统Make-A-Video,到谷歌宣布的可以从简单的文本提示中生成高清视频的ImagenVideo和Phenaki,AIGC在海外市场迅速发展。

目前具有参照意义的海外公司主要有:

1)Zyro:围绕垂直业务场景,结合业务knowhow组织相关AIGC能力

围绕电商场景,通过AIGC生成网站搭建过程中所需的各类素材,具体业务包括针对性生成公司介绍、企业价值、Slogan、自动提升图片清晰度、自动生成logo等。

2)Nvidia:构建技术矩阵,使其最终服务于创作型工具平台

在视觉生成研究领域始终位于前沿,代表作品包括CycleGAN、GauGAN、EditGAN、GANverse3D、InstantNeRF等。

3)OpenAI:将其底层模型对外开放商用,开创基础设施型的商业模式

GPT-3目前已经开始对外提供API,并分为四种模型按照用量对外收费。

4)Gliacloud:拼凑式视频生成代表

输入文本链接,软件能够自动对其中的标题和文字进行区分表示,并根据不同层级自动匹配素材和文字的转场、格式等,进而形成说明式的视频。据公开数据,该方式能够增加10倍的视频产量。

类似公司还包括:Gliacloud、Synths.video、lumen5、Pencil。

5)Rosebud.ai:可结合营销数据生成无版权纠纷的图像

Rosebud.ai能够生成非真实的人脸图像,并在该图像中匹配相关衣物等所需素材。此外,模型面孔可以根据对应受众的相关数据进行调整。该公司声称,其生成模型能够使活动点击率提升22%。

类似公司还包括:GeneratedPhotos。

6)Persado:结合精准用户画像,实现个性化文本营销

Persado的平台将营销创意分解为六个关键要素:叙事、情感、描述、号召性用语、格式和文字定位。通过组合各类元素,该平台能够为每位客户确定交流的个性化措辞。该平台已被多家公司用于促销电子邮件、社交媒体广告、店内展示横幅甚至广播内容等,以提高品牌参与度和转化率。

3、我国AIGC发展现状

资料显示,国内大厂百度、腾讯优图、阿里巴巴、快手、字节跳动、网易、商汤、美图等都在AIGC领域有所投入,中国信通院也在2022年联合京东探索研究院发布了AIGC白皮书,对行业进行了深入剖析和研究。

2022年11月9日,百度创始人兼首席执行官李彦宏表示,过去一年无论是在技术层面还是商业应用层面,人工智能都有了巨大的进展,有些甚至是方向性的改变。其中人工智能技术方向性改变体现就是AIGC。

李彦宏判断AIGC将迎来三个发展阶段:

“助手阶段”,AIGC辅助人类进行内容生产;

“协作阶段”,AIGC以虚实并存的虚拟人形态出现,形成人机共生的局面;

“原创阶段”,AIGC将独立完成内容创作。

其他国内大厂中,腾讯打造的写稿机器人“梦幻写手”;阿里巴巴旗下的AI在线设计平台Lubanner,帮助营销人员生产Banner;字节跳动旗下的剪映以及快手云剪都能提供AI生成视频;网易推出的一站式AI音乐创作平台“网易天音”等等。

随着AIGC的火热,国内也涌现了一批成长迅速的创业公司,代表企业如下:

1)小冰科技

2021年完成A轮融资,该轮融资由高瓴领投,五源、Neumann、IDG、GGV纪源资本及上轮投资人北极光与网易公司跟投。2022年完成10亿元B轮融资,投资方尚未披露。

主营方向:小冰是全球领先的人工智能科技公司,旗下小冰框架是全球承载交互量最大的完备人工智能框架之一,在开放域对话、多模态交互、超级自然语音、神经网络渲染及内容生成领域居于全球领先。

AIGC相关亮点:作为"AIbeing"派虚拟人。小冰的产品始终是人+交互+内容。具体包括虚拟人(夏语冰等somebodyinstance、虚拟男友等nobodyinstance和国家队人工智能裁判与教练系统观君等在垂直场景中工作的虚拟人类)、音频生成(主攻超级语言及歌声,在线歌曲生成平台与歌手歌声合成软件Xstudio)、视觉创造(毕业作品集《或然世界》、为国家纺织品开发中心、万事利等数百家机构提供了图案和纹样设计)、文本创造(2017年即推出小冰诗集)、虚拟社交、GameAI(XiaoiceGameStudio)等。

商业客户已覆盖金融、智能车机、零售、体育、纺织、地产、文旅等十多个垂直领域,并提出了以"人力"的逻辑去进行商业报价的虚拟人商业模式。

2)同伴客数据

2022年完成数千万来自W&M的战略融资。

主营方向:同伴客数据是一家致力于通过数字科技为人类释放无限潜能的科技公司。核心产品是TBanic数字员工基础平台,集成了基于“DARD”技术(数据-Data、人工智能-AI、机器流程自动化-RPA、数字人-DigitalHuman)的数字员工开发套件,客户可以根据不同的业务场景,构造出具备对应工作技能的数字员工。同伴客的解决方案覆盖数字蓝领、数字白领和数字金领三个层级,主要包含AIGC数字员工、数据洞察数字员工、RPA数字员工、金融交易数字员工、人工增强数字员工等相关产品。目前已服务于全球超过200家客户,其中不乏世界500强企业、大型国央企和知名高校与科研院所。

AIGC相关亮点:以虚拟人数字员工的形式,为客户直接提供功能强大的AIGC机器人,涵盖了绘图、文字撰写、视频处理等相关功能,同时集成PRA、数据处理和虚拟人等技术,可以为客户提供完整的解决方案。目前同伴客的AIGC机器人作为教学仪器,在高校教育市场拥有数百家客户沉淀和绝对的竞争优势,同时也在众多世界500强企业和大型国央企中得到落地应用。

3)DeepMusic(灵动音科技)

2018年完成数千万A轮融资,由TME领投。

主营方向:公司致力于运用AI技术从作词、作曲、编曲、演唱、混音等方面全方位降低音乐创作及制作门槛,为音乐行业提供新的产品体验,提升效率。

AIGC相关亮点:产品包括针对视频生成配乐的配乐猫、支持非音乐专业人员创作的口袋音乐、可AI生成歌词的LYRICA、AI作曲软件LAZYCOMPOSER。目前已与国内多家音乐平台厂商达成合作。其音乐标注团队已形成了全球最精确的话语歌曲音乐信息库。

4)倒映有声

2021年完成Pre-A轮融资,投资机构为“中文在线”,温石企业顾问集团担任本轮融资独家财务顾问。

主营方向:一家以技术为核心的创新型公司和无人驱动数字分身技术解决方案供应商,通过自研神经渲染技术和TTSA技术,实现基于文本实时生成高质量语音(音频)和动画(视频),致力于成为AI数字人神经渲染引擎。

AIGC相关亮点:倒映有声将其虚拟人的高自然度归结于神经渲染(NeuralRendering)、TTSA(基于文本和语音合成实时生成音频和视频)、ETTS(富情感语音合成)、DigitalTwin。通过神经渲染技术快速构建AI数字分身,通过语音+图像生成技术,生成和驱动数字分身的唇形、表情、动作、肢体姿态,创造表情自然、动作流畅、语音充满情感的高拟真度数字分身IP。2021年3月倒映有声和音频客户端「云听」签署战略合作协议。

5)超参数

超参数科技宣布完成1亿美元B轮融资,本轮融资由红杉中国领投,老股东五源资本、高榕资本跟投。

主营方向:超参数科技是一家专注于AI领域的科技公司,致力于「打造有生命的AI」,创造一个10亿人与100亿AI共同生活的虚拟世界。超参数围绕L1-L4技术路径打造极致的AIBot,逐步为广泛用户带来全新的虚拟世界体验。

AIGC相关亮点:超参数科技提供的AIbot支持玩家陪玩(3D生存游戏AI猎户座α)、多人团队竞技(球球大作战)、非完美信息博弈AI(斗地主、德扑、麻将等)等。自有游戏AI平台“Delta”采用全新的“AI+游戏”研发管线,为开发侧和体验侧两端带来范式创新。

6)影谱科技

2018年完成D轮13.6亿元融资,投资方包括商汤科技Sensetime、软银中国,东方明珠旗下产业投资基金、PAC、前海梧桐并购基金、朗盛资本等。

主营方向:影谱科技以人工智能视觉技术产业化为主要目标,是国内领先的智能影像生产技术提供商及应用方案提供商。公司专注于视觉内容的生产效率与呈现交互方式的技术研究,通过ACM(影像商业化引擎)、AGC(影像工业化引擎)和ADT(数字孪生引擎)三大引擎,面向媒体、文化、科教等多行业领域提供一站式的智能解决方案。

AIGC相关亮点:在视频生成相关领域支持结构化视觉分析、影像自动合成技术(将视频短片、图片、音轨等按照规定效果批量化自动拼接)、智能视频编辑(基于视频中多模态信息的特征融合进行学习,按照氛围、情绪等高级语义限定,对满足条件片段进行检测并合成)、视频内容生产(对视频中的镜头、元素和场景采用不同的生成方式,同时对组件的组合方式进行学习,实现视频的自动化生产)、行为动作分析、场景信息恢复、跨模态转换等。

第二章:AIGC产业发展分析

1、AIGC核心算法

AIGC技术主要涉及两个方面:自然语言处理NLP和AIGC生成算法。随着NLP(NaturalLanguageProcessing,自然语言处理)技术和扩散模型(DiffusionModel)的发展,AI不再仅作为内容创造的辅助工具,创造生成内容成为了可能。

近年来,AIGC的快速发展归功于生成算法领域的技术积累,其中包含了:生成对抗网络(GAN)、变微分自动编码器(VAE)、标准化流模型(NFs)、自回归模型(AR)、能量模型和扩散模型(DiffusionModel)。可以看到,大模型、大数据、大算力是未来的发展趋势。算法模型的突破是近年来AIGC得以快速突破的催化剂,最常用的两个模式,即生成对抗网络和扩散模型。

生成对抗网络GAN(GenerativeAdversarialNetworks)

2014年,IanJ.Goodfellow提出了GAN,是一种深度神经网络架构,由一个生成网络和一个判别网络组成。生成网络产生“假”数据,并试图欺骗判别网络;判别网络对生成数据进行真伪鉴别,试图正确识别所有“假”数据。在训练迭代的过程中,两个网络持续地进化和对抗,直到达到平衡状态,判别网络无法再识别“假”数据,训练结束。

GAN被广泛应用于广告、游戏、娱乐、媒体、制药等行业,可以用来创造虚构的人物、场景,模拟人脸老化,图像风格变换,以及产生化学分子式等等。

优点:能更好建模数据分布。无需利用马尔科夫链反复采样,无需在学习过程中进行推断,没有复杂的变分下界,避开近似计算棘手的概率的难题。

缺点:难训练,不稳定。生成器和判别器之间需要很好的同步,但是在实际训练中很容易判别器收敛,生成器发散。两者的训练需要精心的设计。可能会出现模式缺失(ModeCollapse)问题。GANs的学习过程可能出现模式缺失,生成器开始退化,总是生成同样的样本点,无法继续学习。

(AI绘图的细节仍然非常粗糙)扩散模型DiffusionModel

扩散模型是一种新型的生成模型,可生成各种高分辨率图像。在OpenAI,Nvidia和Google设法训练大模型之后,它们已经引起了很多关注。基于扩散模型的示例架构包括GLIDE,DALLE-2,Imagen和完全开源的稳定扩散。扩散模型已经拥有了成为下一代图像生成模型的代表的潜力。以DALL-E为例,能够直接通过文本描述生成图像,让计算机也拥有了人的创造力。

扩散模型的生成逻辑相比其他的模型更接近人的思维模式,也是为什么近期AIGC拥有了开放性的创造力。本质上,扩散模型的工作原理是通过连续添加高斯噪声来破坏训练数据,然后通过反转这个噪声过程来学习恢复数据。训练后,我们可以通过简单地将随机采样的噪声传递给学习的去噪过程来生成数据。

相比于其他模型,扩散模型的优势在于生成的图像质量更高,且无需通过对抗性训练,这使得其训练的效率有所提升。同时,扩散模型还具有可扩展性和并行性。

高斯噪声是一种概率密度函数符合正态分布的函数,当AIGC运用扩散模型来生成内容的时候,是通过在一副纯白的画布(随机白噪声)上逐步去噪来生成最终的目标画作。即用户给出的文本描述形容词,来从一个模糊的概念逐步具象。我们可以简化为多个正态分布函数的叠加,模型选择其中重叠的区间输出,这也是一个逐步缩小范围的过程。这与人类的思维模式很类似。简言之,在AI训练阶段,我们将数据集中上亿组图文对进行训练,提取特征值;生产过程中,通过添加文字描述,引入不同的特征值进行去噪,从而生产一副AI理解下的内容作品。例如,在当我们在脑海中想象一个画面的时候,比如:一只柯基通过一个小号玩火焰。我们的思维模式也是先有一只柯基,再去想象小号和火焰,最后将这些元素叠加在柯基身上。

简述完原理以后,我们可以通过目前非常先进的AI图像生成应用DALL-E2来举例阐述具体的工作过程:将文本提示输入到一个经过训练能够将提示映射到表示空间的文本编码器中;通过一个被称为“先验”(Prior)的模型,将文本编码映射到图像编码器中。这一图像编码器会捕获文本编码包含的信息和语义;图像编码器随机生成一个图像,这一图像是该语义信息的视觉表现。这一个过程和人类的思维模式相似。在生成的过程中,涉及到了文本编码器这一概念,目前主流的文本编码器是来自于OpenAI的Clip模型,其通过4亿组文字-图片对进行训练。当然,其中的模型训练都是基于英文实现,语言的区别又会给AIGC带来另一重挑战。

除了上述提到的AIGC生成算法模型以外,超级计算机和算力这些硬件作为基础设施也是不可或缺的。在机器学习的过程中,需要通过大量的训练来实现更准确的结果,这样的计算量普通的电脑是无法完成的,目前主要由英伟达A100构建的计算集群完成,而国内外的初创企业也会通过云实现。

2、AIGC数据与算力

数据、算力、算法是驱动AIGC发展的三驾马车,要实现AIGC的发展,这三者缺一不可。目前,结合自然语言的大模型与数据集已成为AIGC发展的软件基础,OpenAI的Clip模型基于4亿组高质量的英文图文对应数据训练而成;算力即权力将在AIGC数字时代更加凸显,StableDiffusion目前依赖于4000个英伟达A100的GPU集群,运营成本超5000万美金。为了让功能更加精确,未来还将更多地基于语种去开发垂直类的应用,便于更有目的性地为特定功能进行训练。

然而,AIGC的算法、算力和数据,都需要企业投入大量的资金,这就导致AIGC初创企业的经营成本居高不下。以新晋独角兽企业StabilityAI为例,该公司为维护一个拥有4000块英伟达A100GPU组成的算力群,总计花费超5000万美元。

较高的前期投入,要求AIGC企业用户规模能够迅速扩张。因为只有行业用户规模达到一定体量,才能够摊平成本,扭亏为盈。过去的经验表明,要在短时间内实现用户规模的快速增长,需要提供标准化的服务内容,毕竟标准的等于大众的,也等于成规模的用户需求满足。

而且,AIGC自身的特点,其实也限制了服务标准化的进程。由于AIGC生成内容具有不稳定性,内容质量层次不齐,无法形成统一的质量标准,一定程度上限制了用户规模的扩张,也限制了AIGC企业的赚钱能力的提升。

不仅如此,由于AIGC赛道正处于摸索阶段,公司战略以完善技术水平、考察消费者需求为主,大部分技术没有完善到足以实际运用到生产之中,而小部分相对成熟的应用,也为了吸引顾客,而处在免费试用的阶段。这就意味着,AIGC技术本身缺乏变现能力。投入增多,而收入不够,使得众多AIGC公司处于亏损状态。

并且,这种亏损状态,长期内,并不会因用户规模的增多而得到改善。因为,一旦行业用户规模达到一定体量,大厂们必然会加速入场,此时行业竞争加剧,一方面会促进企业增加成本投入;另一方面也会导致企业收入减少。那时,面对着AIGC有限的变现能力,加上持续不断的成本投入,势必对AIGC企业形成非常大的经营压力。

第三章:AIGC应用场景分析

1、AIGC应用场景汇总

按照AIGC的发展逻辑,主要可以分为3个阶段:一是AIGC内容生产技术完善阶段,能够实现文本、视频、图片生成以及三者的跨模态转换;二是具有多模态生成技术的聚合应用——虚拟人;三是AIGC内容生态聚合体——元宇宙。

未来,AIGC将有望成为数字内容创新发展的新引擎。

1)AIGC能够以优于人类的制造能力和知识水平承担信息挖掘、素材调用、复刻编辑等基础性机械劳动,从技术层面实现以低边际成本、高效率的方式满足海量个性化需求。

2)AIGC能够通过支持数字内容与其他产业的多维互动、融合渗透从而孕育新业态新模式。

3)助力“元宇宙”发展。通过AIGC加速复刻物理世界、进行无限内容创作,从而实现自发有机生长。

长期来看,AIGC与各行业的融合,有望创造更多的应用场景,大幅提高各行业的内容创作效率。

1)AIGC+传媒:写稿机器人、采访助手、视频字幕生成、语音播报、视频锦集、人工智能合成主播。

2)AIGC+电商:商品3D模型、虚拟主播、虚拟货场。

3)AIGC+影视:AI剧本创作、AI合成人脸和声音、AI创作角色和场景、AI自动生成影视预告片。

4)AIGC+娱乐:AI换脸应用(如FaceAPP、ZAO)、AI作曲(如初音未来虚拟歌姬)、AI合成音视频动画。

5)AIGC+教育:AI合成虚拟教师、AI根据课本制作历史人物形象、AI将2D课本转换为3D。

6)AIGC+金融:通过AIGC实现金融资讯、产品介绍视频内容的自动化生产,通过AIGC塑造虚拟数字人客服。

7)AIGC+医疗;AIGC为失声者合成语言音频、为残疾人合成肢体投影、为心理疾病患者合成医护陪伴。

8)AIGC+工业:通过AIGC完成工程设计中重复的低层次任务,通过AIGC生成衍生设计,为工程师提供灵感。

(图:PGC、UGC、AIGC对比)

2、AIGC商业模式分析

商业模式上看,目前AIGC企业主要有以下几种商业模式:

1)作为底层平台接入其他产品对外开放,按照数据请求量和实际计算量计算:GPT-3对外提供API接口,采用的四种模型分别采用不同的按量收费方式。

2)按产出内容量收费:包括DALL·E、DeepDreamGenerator等AI图像生成平台大多按照图像张数收费。

3)直接对外提供软件:例如个性化营销文本写作工具AXSemantics则以约1900人民币/月的价格对外出售,并以约4800欧元/月的价格提供支持定制的电子商务版本。大部分C端AGC工具则以约80人民币/月的价格对外出售。

4)模型训练费用:适用于NPC训练等个性化定制需求较强的领域。

5)根据具体属性收费:例如版权授予(支持短期使用权、长期使用权、排他性使用权和所有权多种合作模式,拥有设计图案的版权)、是否支持商业用途(个人用途、企业使用、品牌使用等)、透明框架和分辨率等。

商业门槛来看,虽然AIGC是一个重技术的行业,但是由于众多开源平台的存在,以及软件技术的可复制性,单纯的技术和算法,很难成为AIGC行业的主要竞争壁垒。AIGC相关企业如果想建立长久的竞争优势,还需要在一体化解决方案、行业深度绑定、业务闭环等领域不断耕耘。应该说,技术是AIGC企业成功的必要条件,但不是充分条件,对于商业能力的把控,会是未来AIGC赛道中相关企业的竞争焦点。

1)打造一体化解决方案服务能力:AIGC本质上提供的是内容的生成工具,和传统的内容辅助编辑逻辑是相同的。采集、生产、媒资管理、分发消费等视频整个生命周期,一般都需要覆盖内容生成的全生命周期。

2)与行业的深度绑定关系:通过和行业形成深度绑定关系,接入相关平台或底层系统的,与原来的内容载体建立良好的合作关系,除去说明场景可行性外,还需要强调对方在基础架构上的配合意愿。

3)构建业务闭环:创作型的工具如何得到反馈的手段,需要新的模式形成闭环。需要从“拼接式”(需要大量的人工标注数据,只能针对具体任务,不会自我成长)到“进化式”(创造特定条件和核心能力,使之能够完成通用任务并自我成长),并与用户增加对话轮次、建立情感链接。

第四章:AIGC发展预测

1、AIGC发展前景

目前,科技圈和资本圈普遍对于AIGC的发展抱有很大的期望,AIGC有望接棒元宇宙,成为2023年科技圈的热点。

2022年7月,百度世界大会上李彦宏这样预言到:“未来十年,AIGC(人工智能自主生产内容)将颠覆现有内容生产模式。可以实现以十分之一的成本,以百倍千倍的生产速度,去生成AI原创内容。”

2022年9月,红杉资本联合GPT-3,发布了一篇名为《生成式AI:一个创造性的新世界》的文章,并且立刻引爆了AIGC赛道。“人们的梦想:生成式AI将创造和知识工作的编辑成本降至零,生产巨大的劳动生产率和经济价值,以及相应的市值。”按照其中的理解,AI能够让人效突破现在技术条件的天花板,未来企业的增长将不再受制于人力和成本,企业的经营效率也会随之发生质变。

在移动互联网时代,关于未来的畅想,已经进行过很多次,从当初红极一时的元宇宙和Web3,就像给大众营造的一场科技幻想,跳脱出时间和空间的维度,充斥着对未来的无限期待,这也是很多极客的毕生夙愿。剧本是如此的相似,只不过这次的主角换成了AIGC。伴随着文本、图片、视频以及三者跨模态相互转化方面的技术不断突破,我们所熟悉的AI行业,正意欲重构人类生产力和生产关系的变革,这究竟是一时昙花,还是一片新的蓝海,还有待市场和时间的检验。

现在的AIGC仍处于早期摸索期,发展的有限程度导致了目前应用场景的有限。也许未来技术的突破,能够不断扩展AIGC的应用场景,但短期内各企业能做的,只是优化模型,从而提高其与应用场景的适配度。

公开数据显示,在未来2-3年间,AIGC的初创公司和商业落地方案将持续增加;到2030年,AIGC市场规模或将超过万亿人民币。

从PGC到UGC再到AIGC,AIGC能让人类突破内容生产力枷锁,高效率生成高质量内容,让人类进入到真正的元宇宙之中。若要AIGC能够满足元宇宙的需求,独立完成高质量、高精度的内容,AIGC技术层面还需要一定的发展,我们可以分为软硬件两个维度看,软件层面主要包括自然语言处理技术、AIGC生成算法模型和数据集,硬件层面主要是算力、通信网络。

从业务层面看,结合国内外发展情况,目前在AIGC的知识产权归属方面尚有法律空缺,且创作伦理问题也未得到有效解决,因此无论是技术还是商业层面,高质、干净的数据集对于模型训练及内容生成均有至关重要的影响。同时,随着AIGC逐步落地,其算力需求将大增,未来相关企业除用云计算之外,或组建自有算力集群,考虑到英伟达A100、H100出口受限,相关国产算力芯片将有机会获得增量市场。

从主题投资的角度看,区块链、元宇宙、Web3均描述了数字经济时代中宏大的应用场景,而去年被资本市场关注的虚拟人、NFT等只是其中的具体应用之一。未来,AIGC可能将是推动数字经济从Web2向Web3升级的重要生产力工具:一方面,其对现有的杀手级应用——短视频、游戏等具有颠覆式影响,或进一步扩大内容量、提高成瘾性,同时对社交和广告提供新的工具;另一方面,Web3开放、共建的价值观下,UGC、AIGC的内容会更具吸引力,二次创作、开放想象的浪潮将来临。目前AIGC已成为硅谷最新热门方向,国内一级市场、互联网大厂等对AIGC应用关注度也在快速提升中。

(AI绘图举例)

2、AIGC待解决问题

尽管AIGC发展前景广阔,但也存在着很多难以解决的问题,影响了其商业化的进程。

1)技术不成熟

技术上来看,虽然当前生成的图片、文字已经可以用以商业用途,但还存在一些问题使得无法满足较高的质量要求。在不太关注细节的大场景图片生成中,AIGC的表现较好。但对于比较具体和细节的内容,生成的效果不尽如人意。这主要是由于自然语义的理解在处理一些空间关系上还存在一定的误差,同时业内大部分机构都在采用开源的OpenAI的Clip模型。其函数是开源的,但训练的数据集是封闭的,数据集的质量、合规性、风格偏向都会决定生成的内容质量。

2)版权不清晰

AIGC本质上是机器学习,因而无法避免使用大量的数据集执行训练,在这之中确实存在损害图片版权者的利益。对于艺术家来说,虽然认为这些平台侵害了自己的权益,但是现在仍没有完善的法律规定此类侵权行为,甚至在某些法律条文中,这种行为是合法的。

一方面,AIGC难以被称为“作者”。著作权法一般规定,作者只能是自然人、法人或非法人组织,很显然AIGC不是被法律所认可的权利主体,因此不能成为著作权的主体。但AIGC应用对生成的图片版权问题持有不同观点,图片属于平台、完全开源还是生成者,目前尚未形成统一意见。

另一方面,AIGC产生的“作品”尚存争议。传统意义上的作品是指文学、艺术和科学领域内具有独创性并能以某种有形形式复制的智力成果。AIGC的作品具有较强的随机性和算法主导性,能够准确证明AIGC作品侵权的可能性较低。同时,AIGC是否具有独创性目前难以一概而论,个案差异较大。

即使现在把自己的作品从数据集中删除也无法阻止自己风格作品的生成,首先,AI模型已经过训练,对应风格已经掌握。而且,由于OpenAI的CLIP模型(于训练StableDiffusion以理解文字和图像之间的联系),用户仍然可以调用特定的艺术风格。

对于AI项目方来说,让数据集每张图片都得到授权是不现实的,如果此类法案通过,那么AI行业的发展将受到很大的阻碍,或许是灭顶之灾。

3)壁垒不够高

AIGC产业链涉及环节众多。上游生成算法的环节,存在着一定程度上改进国外开源模型的情况。渲染、模型训练等环节,也大多依赖国外GPU。

目前各种各样的AIGC范式,大都建立在国外的论文、开源模型上。这些建立在开源模型上的AIGC并没有核心技术壁垒。即便辛苦做出的小幅度优化,往往会被开源方发布的新版本所抹平。

同时在应用场景上,目前AIGC只是工具链上的某个环节的增强,初创公司很难与完整工具链和生态的企业竞争。如国内虽然有大量项目对标新一代的Figma、Canva或者短视频创作工具,但是Figma已经集成了StableDiffusion的生成模型,而字节跳动这样的企业在短视频AIGC方面也有深厚的积累和创新。即使游戏领域,一个游戏引擎是一套非常复杂的工具链体系,也不仅仅是个渲染器。

目前,国内正在朝着自主可控的方向发展,这要求AIGC领域的创新型企业在加强原创性研究的同时,尽快将技术转化为知识产权,形成行业壁垒与竞争力。

4)商业不清晰

尽管AIGC为人类描绘了一个美好的未来,但是其商业路径并不足够清晰,客户的付费意愿也不是非常明确。目前各家公司为了抢占用户,很多都采用了免费体验的模式,而目前AIGC提供的服务,不管是绘图、文字还是视频,都很难精准的满足客户的需求,更多的是为专业设计人员提供思路和参考价值,其实际商业化价值仍然让客户抱有怀疑。

同时,最为一项工具属性较强的技术,AIGC尚未出现UGC时代的大平台、杀手级应用和现象级项目。AIGC虽然得到了资本的青睐,但商业模式清晰、能够获得持续稳定现金流、竞争壁垒较强的新兴公司尚没有出现,更多的是大公司在新技术领域不计成本的前沿布局。因此,AIGC技术发展和商业化进程不及预期的风险仍然较大。

参考资料:

《AIGC的十大前沿创新》孙思明

《国内外最值得关注的AIGC机构》量子位

《AIGC:Web3时代的生产力工具》宋嘉吉、金郁欣

《突然爆火的AIGC究竟是不是泡沫?》顾煜

《AIGC产业链全梳理》杨江凯

《人工智能生成内容(AIGC)白皮书(2022年)》中国信通院

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇