AI版“女娲”来了!文字生成图像、视频,8类任务一个模型搞定
机器之心报道
编辑:陈萍、小舟
AI会是未来的「造物者」吗?
近来,视觉合成任务备受关注。几天前英伟达的GauGAN刚刚上新了2.0版本,现在一个新视觉合成模型Nüwa(女娲)也火了。
相比于GauGAN,「女娲」的生成模式更加多样,不仅有文本涂鸦生成图像,还能从文本生成视频。
随着VQ-VAE这种离散化VAE方案的出现,高效和大规模的预训练被逐渐应用于视觉合成任务,例如DALL-E(图像)、GODIVA(视频)。这些模型虽然取得了巨大的成功,但仍然存在一些局限性——它们分别处理图像和视频,专注于生成其中一种,这限制了模型从图像和视频数据中受益。相比之下,「女娲」是一个统一的多模态预训练模型,在8种包含图像和视频处理的下游视觉任务上具有出色的合成效果。
论文地址:https://arxiv.org/pdf/2111.12417.pdf
GitHub地址:https://github.com/microsoft/NUWA
模型概览
该研究提出了一个通用的3Dtransformer——编码器-解码器框架(如下图所示),同时涵盖了语言、图像和视频,可用于多种视觉合成任务。该框架由以文本或视觉草图作为输入的自适应编码器和由8个视觉合成任务共享的解码器组成。
「女娲」整体架构图。
该框架还包含一种3DNearbyAttention(3DNA)机制,以考虑空间和时间上的局部特征。3DNA不仅降低了计算复杂度,还提高了生成结果的视觉质量。与几个强大的基线相比,「女娲」在文本到图像生成、文本到视频生成、视频预测等方面都得到了SOTA结果。此外,「女娲」还显示出惊人的零样本学习能力。
「女娲」的8种跨模态合成模式分别是:
文本转图像:
涂鸦转图像:
图像补全:
根据文本编辑图像:
文本转视频:
视频预测:
涂鸦转视频:
根据文本编辑视频:
实验结果
还研究通过多项实验评估了合成结果。
首先研究者将「女娲」在三个数据集上进行预训练:用于文本-图像(T2I)生成的ConceptualCaptions,包括2.9M文本-图像对;用于视频预测(V2V)的MomentsinTime,包括727K视频;用于文本-视频(T2V)生成的VATEX数据集,包括241K文本-视频对。
与SOTA方法比较
文本-图像(T2I)微调:该研究比较了「女娲」在MSCOCO数据集上的性能,如表1和图3所示:在表1中,「女娲」明显优于CogView,其中FID-0为12.9,CLIPSIM为0.3429。尽管XMC-GAN的FID-0为9.3,优于「女娲」,但「女娲」能生成更逼真的图像,如图3所示。特别是在最后一个例子中,「女娲」生成的男孩脸更清晰,并且男孩旁边的气球也很逼真。
文本-视频(T2V)微调:该研究在Kinetics数据集上评估了「女娲」,结果如表2和图4所示。在表2中,「女娲」在所有指标上实现了最好的性能。
在图4中,该研究还展示了「女娲」强大的零样本生成能力,可以生成没见过的图像,例如:在游泳池里打高尔夫球,在海里奔跑:
视频预测(V2V)微调:该研究在BAIRRobotPushing数据集上对「女娲」和其他模型进行了比较,结果如表3所示:为了进行公平比较,所有模型都使用64×64分辨率。虽然只给出了一帧作为条件(Cond.),但「女娲」仍然将SOTAFVD得分从94±2降到86.9。
草图-图像(S2I)微调:该研究在MSCOCOstuff上进行实验,如图5所示。与Taming-Transformers和SPADE相比,「女娲」生成了种类繁多的逼真汽车,甚至巴士车窗的反射也清晰可见。
图像补全(I2I)零样本评估:给定塔楼的上部,与TamingTransformers模型进行比较,「女娲」可以生成对塔楼下半部分更丰富的想象,包括生成周围建筑物、湖泊、花草、树木、山脉等。
文本-指导图像处理(TI2I)零样本评估:「女娲」显示了其强大的处理能力,可以生成高质量的文本一致性结果,而不会改变图像的其他部分。
消融实验
图5显示了文本-视频(T2V)生成任务中多任务预训练的有效性。该研究在具有挑战性的数据集MSR-VTT(具有自然描述和真实视频)上进行了实验。「女娲」FID-vid为47.68,CLIPSIM为0.2439。
图9显示了文本指导视频处理(TV2V)。第一行显示了原始视频帧,潜水员在潜水;第二行为潜水员正在向水面游;第三行显示可以让潜水员游到海底,如果我们想生成让潜水员飞向天空的图片?「女娲」可以实现,从图中可以看出,潜水员像火箭一样飞向天空。
2021NeurIPSMeetUpChina
受疫情影响,NeurIPS2021依然选择了线上的形式举办。虽然这可以为大家节省一笔注册、机票、住宿开支,但不能线下参与这场一年一度的学术会议、与学术大咖近距离交流讨论还是有些遗憾。
我们将在NeurIPS官方支持下,于12月11日在上海博雅酒店举办线下NeurIPSMeetUpChina,促进国内人工智能学术交流。
2021NeurIPSMeetUpChina将设置Keynote、圆桌论坛、论文分享、Poster和企业招聘等环节,邀请顶级专家、论文作者与现场参会观众共同交流。
人工智能生成内容(AIGC)白皮书(2023年)
一、人工智能生成内容的发展历程与概念
(一)AIGC历史沿革
(二)AIGC的概念与内涵
二、人工智能生成内容的技术体系及其演进方向
(一)AIGC技术升级步入深化阶段
(二)AIGC大模型架构潜力凸显
(三)AIGC技术演化出三大前沿能力
三、人工智能生成内容的应用场景
(一)AIGC+传媒:人机协同生产,推动媒体融合
(二)AIGC+电商:推进虚实交融,营造沉浸体验
(三)AIGC+影视:拓展创作空间,提升作品质量
(四)AIGC+娱乐:扩展辐射边界,获得发展动能
(五)AIGC+其他:推进数实融合,加快产业升级
四、人工智能生成内容发展面临的问题
五、发展建议与展望
(一)发展建议
(二)未来展望