博舍

技术,为虚拟数字人赋予生命技术 虚拟数字人是机器人吗小说

技术,为虚拟数字人赋予生命技术

0分享至初音未来和“前辈们”相比,

具有更好的互动性。

随着技术发展,数字人会越发逼真,恐怖谷效应会逐渐减弱——尤其是AI技术的发展,让数字人不止在外观上,更在其“思想”上接近真人。

1998年,一支名为街头霸王(Gorillaz)的乐队在英国埃塞克斯成立了。在诞生过披头士(theBeatles)、滚石(theRollingStone)、平克•弗洛伊德(PinkFloyd)、皇后(theQueen)等伟大乐队的英国,一般不会有人注意到这样一支新晋乐队,况且上世纪90年代的英国还有山羊皮(Suede)、绿洲(Oasis)、模糊(Blur)等当红英伦摇滚乐队。

可这支乐队有点不太一样。这支乐队不是什么乐坛新人搞的,而是模糊乐队的主唱代蒙•阿尔本(DamonAlbarn)牵头创建的,可以说是“系出名门”。更重要的是,乐队的主唱2-D、贝斯手MurdocNiccals、吉他手Noodle和鼓手RusselHobbs,其实是四个虚拟角色——虽然他们的背后是真人。

街头霸王是世界上第一支虚拟乐队,他们涉猎了包含嘻哈、前卫流行/摇滚、牙买加雷鬼、古巴传统情歌以及英伦摇滚在内的极其丰富的音乐风格,后来取得了不错的成绩,成立20多年来一直坚持发专辑,甚至还有演出。可以说,街头霸王是一支成功的乐队,也是一个成功的虚拟偶像运营案例。

虚拟乐队“街头霸王”和背后的创造者。

街头霸王的成功,不仅是音乐的成功,创造虚拟人的技术辅助也不可或缺——那几个看上去简单、粗暴,动起来却生动细腻的虚拟乐队成员,让人们领略了不一样的乐队形象。

今天,虚拟数字人已经深入到人们生活的方方面面,技术的发展也让虚拟数字人更加丰富多彩。

虚拟数字人的概念

在对虚拟数字人的技术脉络进行梳理之前,我们必须要了解虚拟数字人这个概念到底意味着什么。虚拟数字人,英文对照名为digitalhuman,metahuman,也就是“数字人、虚拟人”,具体可以解释为:运用数字技术创造出来的、与人类形象接近的数字化人物形象。狭义的数字人是信息科学与生命科学融合的产物,是利用信息科学的方法对人体在不同水平的形态和功能进行虚拟仿真。

我们现在说的虚拟数字人,指存在于非物理世界中,由计算机手段创造及使用,并具有多重人类特征(外貌特征、人类表演能力、交互能力等)的综合产物。这个概念包含虚拟和数字两个维度,虚拟和真实对应,数字则是其生成技术。之所以称为数字人,强调了它存在于数字世界。而数字世界是人类设计运行于计算设备上的代码和数据,它是计算设备上运行的程序。我们将主要从数字技术的发展来看虚拟数字人的发展历史。

数字人研究最早出现于1989年美国国立医学图书馆的可视人计划,后来科罗拉多大学于1994-1995年间建立了两个数字化可视人数据集。2001年,美国科学家联盟(FAS)将人类基因组计划(HumanGenomeProject,HGP)、可视人计划(VisibleHumanProject,VHP)、虚拟人计划(VirtualHumanProject,VHP)、人类脑计划(HumanBrainProject,HBP)概括为“数字人计划”(DigitalHumanProject,DHP)。而我们所熟知的数字人,则主要应用在娱乐和商业领域,在此领域,虚拟数字人是指具有数字化外形的虚拟人物。与具备实体的机器人不同,虚拟数字人依赖于显示设备存在,我们所知的很多虚拟人都要通过手机、电脑或者智慧大屏等设备才能显示。

有人总结,虚拟数字人有人的外观,具有特定的相貌、性别和性格等人物特征;有人的行为,具有用语言、面部表情和肢体动作表达的能力;拥有人的思想,具有识别外界环境、与人交流互动的能力,也就是具备形象能力、感知能力、表达能力和娱乐互动能力。虚拟数字人可按人格象征和图形维度划分,亦可根据人物图形维度划分。人物形象、语音生成模块、动画生成模块、音视频合成显示模块、交互模块,构成了虚拟数字人通用系统框架。

通过概念梳理,可以发现,数字人的未来发展和AI人工智能水平密不可分——只有高水平的人工智能,才能支持数字人的形象能力、感知能力、表达能力和娱乐互动能力,其中表达能力和娱乐互动能力是更高级、需要更高技术的能力。

虚拟数字人的技术发展史,就是从基础的形象能力到高阶的表达甚至“思考”能力演化的历史。

从虚拟偶像到CG数字人

一般谈到虚拟数字人,最早会追溯到1982年的一部动画片《超时空要塞》。这部作品中的女角色林明美作为虚拟歌姬出道,当时日本媒体率先提出了“虚拟偶像”的称号。

同样是虚拟偶像,诞生在20世纪的林明美、MaxHeadroom、街头霸王和后来的初音未来、洛天依有着很大的不同。首先,上世纪著名的几位虚拟偶像都是手工绘画制作的2D图像;其次,上世纪的虚拟偶像一般都是概念先行,围绕概念打造虚拟偶像的人设,这些偶像不具备与粉丝的交互能力;最后,上世纪的虚拟偶像只能称得上是虚拟人,但很难说是数字人,这当然是当时的计算机技术不成熟造成的。

初音未来可以说是第一个著名的CG虚拟偶像

21世纪是计算机和互联网技术大爆发的时代,计算机硬件和软件都为虚拟数字人的出现、发展提供了必要的条件。虚拟数字人的基础软硬件支撑,包括显示设备、光学器件、传感器、芯片等,基础软件包括建模软件、渲染引擎。显示设备是数字人的载体,既包括手机、电视、投影、LED显示等2D显示设备,也包括裸眼立体、AR、VR等3D显示设备。光学器件用于视觉传感器、用户显示器的制作。传感器用于数字人原始数据及用户数据的采集。

初音未来可以说是第一个著名的CG虚拟偶像,她和“前辈们”相比,具有更好的互动性。初音未来(はつねみく,HatsuneMiku),是2007年8月31日由CryptonFutureMedia以雅马哈的Vocaloid系列语音合成程序为基础开发的音源库,音源数据资料采样于日本声优藤田咲。也就是说,她的诞生完全是计算机技术发展的结果,但真正让她广受欢迎的,则是她的演唱会。初音未来的演唱会是世界上第一个使用全息投影技术举办的现场演出,她也是第一个使用此技术的虚拟偶像。

初音未来演唱会中使用的3D全息透明屏幕是一种采用了全息技术的透明投影屏幕,这种投影屏幕具有全息图像的特点,只显示来自某一特定角度的图像,而忽略其他角度的光线。即使是在环境光线很亮的地方,也能显示非常明亮、清晰的影像。

2010年3月9日举行的“感谢祭”采用的是日本KIMOTO公司的DiladScreen2.5D半全息透明屏播放3D影像实现的,准确意义上来说这场演唱会是2.5D的,简单解释即在屏幕上播放3D画面,就和看电影一样,只不过这个屏幕可以调节透明度,如调节为全透明的舞台上就只留下MIKU成像,原来就是调节屏幕中的局部粒子浓度显示出不透明效果并成像。

全息投影技术一直是科幻电影中最引人瞩目的炫酷技术之一,《星球大战》中所展现的“视频通话”就是一种全息投影技术。全息投影对于虚拟偶像来说是非常重要的一种技术,它可以让虚拟偶像从电脑屏幕的二维世界跳跃到眼前的立体世界,显得更加栩栩如生。相比全息投影,CG技术对21世纪的虚拟人来说,是更重要的技术基础。

全息投影技术一直是科幻电影中最引人瞩目的炫酷技术之一,《星球大战》中所展现的“视频通话”就是一种全息投影技术。

所谓CG,就是ComputerGraphics的首字母,也就是计算机动画。传统CG技术脱胎于游戏行业,主要基于专业CG软件进行相应的建模、动画制作和渲染等,可以从外形、表情到动作方面还原真人的影视级效果。CG能够创造出与人类形象接近的数字化形象,并赋予其特定的人物身份设定,在视觉上拉近和人的心理距离,为人类带来更加真实的情感互动。

另一个重要的技术就是动作捕捉。动作捕捉技术来源于电影工业,即通过红外线摄像机、动作分析系统,透过由受试者身上反光球执行反射回来的光线,将运用摄像机拍摄到的2D影像转换成3D资料。

初音未来的虚拟形象采用CG和动作捕捉技术。在动作捕捉技术的助力下,初音未来可以直接采用人类的表情和动作,借助CG技术,能够对动作捕捉生成的“人物骨骼”进行“无痕”对接。初音未来的一颦一笑都与人类更加接近。

初音未来让我们看到了一个真正的虚拟偶像或者说虚拟数字人应该是什么样的。自初音未来之后,虚拟偶像层出不穷,比如国内的洛天依等,都取得了不错的成绩。现在,偶像已经不是虚拟数字人唯一的“职业”了,他们已经在身边随处可见,甚至成为我们在生活中不可或缺的助手、陪伴者。

3D与真人化

1995年,由皮克斯制作的动画片《玩具总动员》上映了。这是世界上第一部全部由电脑绘制的3D动画长片。从此之后,皮克斯成为3D动画领域的佼佼者,而电脑3D动画也开始逐步蚕食传统动画的领地,成为技术推动艺术发展的又一案例。3D绘图技术不仅催生了新的动画艺术和电影市场,还为数字人提供了新的技术支撑,让虚拟数字人更接近真人。

《玩具总动员》的3D绘图技术不仅催生了新的动画艺术和电影市场,还为数字人提供了新的技术支撑。

在技术层面,数字人制作、交互需要五大技术模块,即人物生成、人物表达、合成显示、识别感知、分析决策等模块。其中,人物生成即人物建模方面,2D数字人较为简单,3D数字人需要额外使用三维建模技术。人物表达包括语音生成和动画生成。动画生成则包含驱动和渲染两大部分。相比2D数字人,3D数字人在技术架构方面基本一致,但3D数字人需要额外使用三维建模技术生成数字形象,信息维度增加,所需的计算量更大。

除了用计算机建模的方式生成数字人,真人扫描、动作捕捉等技术也让3D数字人和真人更加接近。目前业界最广泛的应用方式是通过3D建模软件塑造出人的静态3D模型,实现各种高低细节效果。考虑到人体外形本身就是复杂的不规则体,肢体活动又复杂多变,这种方式非常考验建模人员的经验与手感,人工建模的效率是不可控的。因此,在3D建模之外,近年来又逐步兴起了仪器采集建模和自动化建模这两种新方法,前者是通过仪器扫描的方式来将采集的人体信息转换为数字信号,完成人物的几何建模。后者则通过一套AI系统来直接生成人体结构。这两种新方式都极大降低了建模的时间成本,使虚拟数字人的大规模生产成为可能。

现阶段,通过各种先进技术生成的数字人已经非常惟妙惟肖了,不仔细看的话,和真人难辨真假。可如果稍加留意会发现,现在的数字人仍然会处于恐怖谷效应区间。1970年,日本机器人专家森昌弘提出恐怖谷理论:由于机器人与人类在外表、动作上相似,所以人类会对机器人产生正面的情感。当机器人与人类的相似程度达到一个特定程度的时候,一点点的差别都会显得非常刺目,并带来负面和反感情绪。而当机器人与人类的相似度继续上升,人类对其情感会再度回到正面。

随着技术发展,数字人会越发逼真,恐怖谷效应会逐渐减弱——尤其是AI技术的发展,让数字人不止在外观上,更在其“思想”上接近真人。2016年,一位由3D电脑动画公司Modelingcafe制作的虚拟人、巴西和西班牙混血女孩LilMiquela引起大众热议。许多粉丝相信她是真实存在的人物,只是修图“狠”了点。直到黑客们入侵了她的账号,才最终确定了她是由电脑制作的虚拟人。

LilMiquela有着模特与歌手的身份,受到时尚圈青睐。

这说明,现在的技术已经可以让虚拟人回归正常区间。不过,当虚拟人开始做动作,尤其做面部表情时,其嘴角上翘的幅度、眉眼以及皮肉之间联动等细节都需要被照顾到。对于动态的拟人虚拟人来说,细节的不到位往往带来说不出的僵硬和古怪。因此,恐怖谷效应下,不仅建模技术需要实现拟真,在渲染和交互上也提出了更高要求。

人工智能为数字人赋予灵魂

为了摆脱恐怖谷效应,很多数字人不再追求在外形上完全模拟人类,而是退一步,用适当的卡通化突出其可爱的特点。2019年上映的电影《阿丽塔:战斗天使》中,导演故意将CG制作的主角阿丽塔的眼睛进行放大处理,让她可以很容易被看出是动画人物,便是出于避免恐怖谷效应的想法。

但有些技术可以让数字人不但外形像真人,还能让其一举一动、一颦一蹙都和真人毫无二致,也不会让人产生恐怖谷效应。动作捕捉就是这样的技术。

动作捕捉是在运动物体的关键部位设置跟踪器,通过数字手段记录现实人们的运动过程。动作捕捉可应用在电影行业、动画产业、运动分析、虚拟现实等领域。动作捕捉一般可分为人体四肢动作捕捉、人脸面部表情捕捉、人手动作捕捉三个方面。

将捕捉采集的动作迁移至数字人是目前3D数字人动作生成的主要方式。动作捕捉系统根据实现原理的不同,可以分成光学动作捕捉、惯性动作捕捉以及以人工智能为主的动作捕捉方案。现阶段,光学式和惯性式动作捕捉占据主导地位,基于计算机视觉的动作捕捉成为聚焦热点。当通过不同的设备记录下动作方案之后,还需通过渲染引擎,对毛发、衣物等细节尽量还原。

动作捕捉技术事实上是直接将真人的动作、表情用计算机迁移到数字人身上,所以能够做到完全还原人类的形象。不过,动作捕捉技术也有很多缺点,其中最重要的缺点便是人力成本太大。动捕原始数据帧间隔是不固定的,所有动捕数据都有巨大的工作量,需要去人力抽帧优化原始数据。此外,动作捕捉还需要演员配合,这对于数字人来说,似乎有多此一举之嫌。

无论在技术上将虚拟数字人的身体做得多么惟妙惟肖,缺少了头脑就只能作为一只高科技的提线木偶而存在。这就要赋予虚拟数字人真人一样的“灵魂”,借助各种复杂的当代人工智能技术(比如计算机视觉技术、语音识别与合成技术等),人们能够使数字人获得看到、听见、说话等基础感知,在此基础上还能获得一定的认知、判断甚至创造能力。随着虚拟数字人技术的发展,AI技术成为制作和驱动虚拟人重要的工具。AI技术的支持下,数字人制作过程得以简化,深度学习算法突破,提升了虚拟人语音表达、语义理解以及对话等能力。

目前,人工智能驱动的数字人正在成为虚拟人的主流方式之一。以科大讯飞为例,基于其自主研发的语音合成、识别、自然语言、图像处理等技术,创新发布虚拟生成、驱动、交互技术,搭建了科大讯飞AI虚拟人交互平台。该平台可以提供虚拟人形象构建、AI驱动、API接入、多场景解决方案,实现一站式的虚拟形象打造服务。

为了消除“恐怖谷效应”,《阿丽塔:战斗天使》故意将主角的眼睛放大,让她看起来就是动画人物。

随着技术的不断突破,未来的数字人将具备更复杂的思想、更拟人的性格,甚至与人类产生共情,从单纯的活灵活现,变得真假莫辨。叠加5G、算力、AI等技术能力的提升,其落地场景日渐丰富。如今的虚拟数字人不再限于影视、动画在人物建模、CG等方面在虚拟形象塑造的应用,还在社交、游戏、办公等场景实现了真实人类虚拟化身的身份职能,并逐渐于直播电商、偶像造星、陪伴服务等AI虚拟数字人领域实现商业变现。

近些年来,全球众多企业都在发展人工智能技术,有些技术领域已经取得了令人瞩目的成就,比如OpenAI推出的一款名为ChatGPT的聊天人工智能,这款人工智能完全不像以往聊天机器人那样“人工智障”,它能充分“理解”人类语言并给出符合逻辑的回应。和它聊天,你会感到似乎在和一个真人对话。可以相信,随着这样的人工智能的发展,虚拟数字人终有一天会成为“有血有肉的人”,虽然我们不知道那到底意味着什么。

(文章来源:《创意世界》2023年2月号)

编校:苑宝平,审读:郭丽、管文明

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice:Thecontentabove(includingthepicturesandvideosifany)isuploadedandpostedbyauserofNetEaseHao,whichisasocialmediaplatformandonlyprovidesinformationstorageservices.

/阅读下一篇/返回网易首页下载网易新闻客户端

虚拟数字人迎面而来

  “一峰一状百树迎,天水合璧两岸情。”你能想象出这句诗出自虚拟数字人(又称AI数字人)之口吗?近日,百度虚拟数字人家族在2022百度世界大会上的集体亮相再次引爆舆论场。它们有的能歌善舞,有的妙笔生花,有的已经开始探索太空,有的则在辅助智能制造……IDC最新发布的报告显示,中国虚拟数字人市场规模呈现高速增长趋势,预计到2026年将达到102.4亿元。当前,政策、应用价值、市场需求、资本支出、技术成熟正合力推动虚拟数字人市场崛起。作为人工智能技术最热门的应用之一,业内对虚拟数字人的观点不一,众说纷纭。但不可否认的是,虚拟数字人正在以不可抵挡的姿态迎面而来。

  互联网大厂差异化布局虚拟数字人

  据不完全统计,2021年,虚拟数字人领域投融资事件27起,融资金额在百万至千万元之间。尤其是在元宇宙、Web3.0等概念的推动下,虚拟数字人市场迅速升温,资本不断涌入。自2022年以来,数字人领域融资已达到了近百起,融资金额累计突破4亿元。

  互联网大厂虽集体入局,但切入点却各有不同。其中,百度第一个明确了全场景、大生态的定位,以虚拟数字人为载体全方位输出其在人工智能算法、底层技术、行业应用及生态搭建等方面的优势,旨在实现规模化生产、快速降低成本,从而实现虚拟数字人普惠。

  在2022百度世界大会上,希加加、度晓晓等虚拟数字人成为大会主角,出现在现场多个环节中。百度飞桨和文心大模型为其虚拟数字人提供了脱颖而出的深度学习和内容创造能力。记者从会上获悉,百度虚拟数字人家族数量已经达到了几十个,百度智能云曦灵数字人平台将实现超写实数字人24小时纯AI直播。百度副总裁袁佛玉更是直言:“百度AI算法的突破,让虚拟数字人制作成本十倍、百倍地下降,还能让数字人的生产周期,从动辄几个月缩短到小时级别。虚拟数字人的制作成本,将从百万元级降低到万元级别。”

  区别于百度,腾讯依托自身在语音智能和大文娱生态方面的优势,力图将IP作为核心亮点和竞争力。基于云小微数智人平台,腾讯推出了一系列IP型虚拟数字人,目前声量比较大的有《QQ炫舞》的星瞳、《和平精英》的吉莉、《王者荣耀》的无限王者团等。这些由游戏角色升级而来的虚拟偶像,天生具备广泛的粉丝基础,商业价值高,且能对其游戏内容进行反哺。

  《QQ炫舞》系列发行制作人Todd此前表示,国内虚拟偶像目前的变现逻辑距离成熟模式还很远,除了品牌合作,未来还有发行唱片、制作动画和游戏等一系列途径。如果眼下进行过度的商业价值挖掘,会伤害这些长远的价值。因此,团队并不急于变现。

  不过,腾讯也不是光靠IP布局虚拟数字人,还同步推出了一些基于特定场景的虚拟数字人,如平安普惠数字员工、新华社主播“新小微”、航天员“小诤”、3D手语翻译官“聆语”、故宫博物馆导游“福大人”等。这些虚拟人多是为企业端业务场景量身定制,或者是与旗下智能车载、智能家居、智能交通等智能设备结合,定位是服务型数字助手。

  阿里巴巴对于虚拟数字人的态度则更为保守,主要为自身业务需求服务。借着北京冬奥会的契机大火了一把的数字人“冬冬”采用了面向高质量图形的Unity高清渲染管线(HDRP),在视觉上有着不输AR/VR的效果。但在应用场景方面,仍是以直播带货为主,契合其老本行——电商业务的需求。

  阿里巴巴研究员、数字人技术负责人李小龙表示:“虚拟数字人需要在特定场景内真正解决人的问题。”电商直播间是一个已经被验证可行的商业化场景。阿里巴巴已经在淘宝直播的场景中进行虚拟数字人应用落地尝试,“当前阶段,已经有600多家商家在尝试我们的虚拟主播,每天开播的超过200家”。

  从产业链全局来看,不止是BAT,华为云、京东云、字节跳动、科大讯飞、商汤科技、小冰公司等科技厂商皆已参与到虚拟数字人生产中来。基础软硬件方面,不仅有英伟达、英特尔、AMD等芯片大厂,还有百度、阿里、华为、浪潮、联想等厂商在提供算力服务。在建模、动作捕捉及渲染方面,也不乏Adobe、AutoDesk、Unity、Unreal等知名厂商的身影。应用层更是覆盖了影视、传媒、游戏、文旅、零售等诸多领域,数字王国、诺华视创、哔哩哔哩、浦发银行、中国移动等皆在其中。某AI公司专家指出:“虚拟数字人的产业链较长且覆盖面广泛,多数入局企业正在基于自身技术优势以及客户群体覆盖的领域进行研发创新,以构建差异化竞争优势。”

  虚拟数字人产业基础尚待夯实

  “由于行业内产业链各环节公司专注于虚拟数字人生产流程中的单点环节,各类企业相对割裂,尚未实现协同调优,加之目前数字人生产、运营成本较高,市场接受度尚低,整个产业发展尚处于起步阶段。”赛迪顾问人工智能产业研究中心高级分析师于凯迪在接受《中国电子报》记者采访时说道。

  目前,虚拟数字人的生产商以互联网公司为主,虽然许多公司都推出了自己的虚拟数字人,但它们各自的AI算法大多是自闭环的,只需要购买一些基础的软硬件即可。而产业链上那些纯靠卖算法的AI公司则只能将目标客户定位于那些非互联网公司企业身上。二者之间未能找到一种互惠互利的良性生态模式。

  人类可以敏锐地通过口唇、表情、肢体行为来读取非文本信息,因此对于虚拟数字人交互过程中呈现的效果有很高的要求,这就需要NLP、智能语音、知识图谱等AI技术训练具备极高的协同能力,这种技术融合的难度较高。整体来看,数字人还处于前期探索阶段,生产、运营成本较高,普遍面向B端客户,针对C端市场的需求,如普通用户生成自己的虚拟形象、AI化身等,还有待挖掘和激活。

  在虚拟人生产技术方面,同样存在许多薄弱环节。如登上春晚的虚拟数字人翎Ling就被吐槽面部僵硬一眼假;北京国际电影节的元宇宙星推官虚拟数字人“梅涩甜”也被吐槽角色建模塑胶感严重,“土味十足”;首个国风虚拟男艺人秦佑同样被吐槽“毫无特色”。

  浙江大学国际联合商学院数字经济与金融创新研究中心联席主任、研究员盘和林坦言,国内3D素材、生产3D形象动作的游戏引擎等工具软件比较落后,生产虚拟数字人的工具软件基本被国外公司垄断,需要从基础引擎、建模软件、AI学习框架、编程语言方面有很多创新,来夯实虚拟数字人产业基础。

  北京虚拟动点科技有限公司技术总监崔超在接受《中国电子报》记者采访时表示:“数字人生产技术目前的薄弱环节主要体现在骨骼重定向、真实度模拟、声音处理等方面,例如骨骼重定向时真实人和数字人的骨骼比例相差较大,骨骼拓扑结构不同时,可起到很好的驱动作用,得到更真实的匹配效果,但这项技术难度较高。再比如数字人要达到与真人无异的还原度,声音处理也是一大难点,AI驱动的声音大都缺乏感情,有损数字人的真实度。多数生产商在软件、算法端的技术能力依然有很大提升空间。”

  “数智人不仅要听得到、听得清人类的语言,还需要能听得懂、说得出,复杂应用场景对技术提出了更高要求。”腾讯数智人业务相关负责人对《中国电子报》记者说道:“制作方式自动化水平较低、关键技术有待发展,以及技术人才、综合人才的缺乏,也在一定程度上限制了数智人的产业化发展。”

  尽管一代又一代虚拟数字人蜂拥而至,但它们中的多数并未在市场中激起太大浪花就已消失不见了。究其原因,依然与成本问题有很大干系。虽然百度声称基于算法突破可将数字人的制作成本从百万元级降低到万元级别。百度集团资深副总裁、百度移动生态事业群组(MEG)总经理何俊杰表示:“‘人均一个数字人’的时代已经到来。”

  但实际上,虚拟数字人的“支撑成本”远比前期生产制作还要“烧钱”。公开数据显示,设计一个虚拟偶像形象花费10万元至100万元,而后续的内容制作和智能驱动则需一年200万元到500万元的持续性投入,这还不算营销端、运营端等其他投入。

  “柳夜熙”团队曾透露,推出“柳夜熙”之前的半年多时间,研发成本、人员成本、技术成本等投入已“远超百万元”,它的第一条短视频成本就差不多花了几十万元。小冰公司首席运营官、人工智能创造力实验室负责人徐元春也曾表示,目前运用3D建模等类似技术制作的超写实虚拟人,仅单个形象部分,3D模型成本就在30万元至45万元左右,运营一年可能要花掉五六百万元。

  在花团锦簇的表象之下,不得不承认的是我们距离“人均一个虚拟数字人”还有很长的一段路要走。于凯迪说:“虚拟数字人是否达到批量化生产的标准受虚拟数字人系统平台的工程化能力,也就是系统的易用性、可拓展性、兼容性、可靠性等能力的影响。待虚拟数字人系统平台的制作效率和技术能力实现大幅提升,‘人均一个数字人’才有实现的可能。”

  下一代虚拟数字人还有多远?

  IDC报告认为,当前数字人大多处于L1~L3阶段,即依赖算法驱动肢体、姿态、口型、表情等,数字人可执行简单的决策和操作。未来数字人将实现L4~L5水平,由数字人自主进行决策、执行任务,完全实现智能化交互。

  随着新兴业态兴起,直播购物、在线教育、线上旅游、远程问诊等生产生活新方式加速推广;伴随超高清电视的普及应用,互动视频、沉浸式视频、VR/AR游戏等新业态正不断拓展社交、购物、娱乐、展览、旅游、教育、医疗等领域的边界,人机智能交互将成为人工智能典型应用模式,为虚拟数字人在上述行业的大规模落地提供良好的基础。

  “基于新一代多模态人机交互系统的业务型、功能型数智人,通过整合语音交互、知识图谱、视觉识别和情绪识别等技术,有效连接内容和服务、B端和C端,在垂直产业链条中提供智能化服务,以适应更多元的行业化、业务化、场景化需求。这将大大拓展数字人的应用场景,并助推这一新兴领域的价值跃迁。”腾讯数智人业务相关负责人说道。

  在技术方向上,文本数据和语音、图像数据的多模态融合依然是未来虚拟数字人产品的刚需;在应用方向上,国内的优势在于丰富的落地应用场景,虚拟数字人应用将优先面向金融、政府、传媒、电商、影视特效等行业的ToB专业服务场景,如虚拟带货主播、媒体行业虚拟主播、金融及政务行业问答机器人、电影特效数字人等;此外,国内互联网直播、在线教育、在线文旅、在线医疗、电竞、社交等行业对于具有更加鲜活形象的虚拟数字人也存在广泛的潜在需求,ToC的虚拟数字人产品研发也是未来的方向之一。

  另有观点认为,下一代虚拟数字人的进化方向与元宇宙的演进方向息息相关。它将成为人们从现实生活走入元宇宙的“数字化身”,拥有自己的身份、资产,甚至是价值观等,不但可以为元宇宙带来丰富的内容,还能给参与者提供一种更深层次的沉浸式体验。

  正如Forrester分析师卢冠男此前接受记者采访时所言,当前我们刚刚进入“元宇宙先兆”时期,后续还将进入初始型元宇宙(primordialmetaverse),即不同虚拟世界的联结机制使用户可以从一个虚拟空间去往另一个空间,就像在不同网站浏览网页,以及联邦式元宇宙(federatedmetaverse),即不同的虚拟世界采纳一套共同系统,支持并遵循身份和资产的可移植性和一致性。未来,我们也有可能以虚拟数字人的形态穿梭于元宇宙之中,让科幻电影中的场景变为现实。

  IDC中国助理研究总监卢言霞表示,今天的虚拟数字人在某些领域发挥了明显的商业价值。未来,在生活和工作中,将有大量的数字人团队与人类共存。一方面,行业用户可以从相对成熟的应用场景中引入虚拟数字人;另一方面,要对这些应用场景保持耐心,不要设置过高的期望值。(记者宋婧)

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇