博舍

文本秒生成图像,震惊业界——详解OpenAI两大AI模型 文本生成图像 应用方法

文本秒生成图像,震惊业界——详解OpenAI两大AI模型

原标题:文本秒生成图像,震惊业界——详解OpenAI两大AI模型来源:OpenAI

智东西1月7日消息,2021开年,顶着地表最强语言模型GPT-3的光环,OpenAI在自然语言处理领域一路高歌猛进,于昨日推出两个跨越文本与图像次元的模型:DALL·E和CLIP,前者可以基于文本生成图像,后者则可以基于文本对图片进行分类,两者都意在打破自然语言处理和计算机视觉两大门派“泾渭分明”的界限,实现多模态AI系统。

什么是多模态系统呢?

就像人类有视觉、嗅觉、听觉一样,AI也有自己“眼鼻嘴”,而为了研究的针对性和深入,科学家们通常会将其分为“计算机视觉”、“自然语言处理”、“语音识别”等研究领域,分门别类地解决不同的实际问题。

每一个研究领域也可以被称为一种模态,通常来说,多模态学习(MultiModalLearning)就是在不同的模态间构建联系,让AI学会“通感”。

01.GPT-3“继承者”:看文绘图的DALL·E

DALL·E的名字取自艺术家SalvadorDali和皮克斯动画片机器人总动员(WALL-E),而与GPT-3一样,它也是一个具有120亿参数的Transformer语言模型,不同的是,GPT-3生成的是文本,DALL·E生成的是图像。

▲Dali代表作《记忆的永恒》和机器人总动员海报。在博客上,OpenAI也大秀了一把DALL·E的“超强想象力”,随意输入一句话,DALL·E就能生成相应图片,这个图片可能是网络上已经存在的图片,也可能是根据自己的理解“画”出的。

▲输入文本分别是:穿芭蕾舞裙遛狗的萝卜、牛油果形状的扶手椅、将上部的图片素描化DALL·E是如何实现先理解文字,再创造图片的呢?

那首先要从理解token开始,语言学中对token的定义是词符,或者标记。对于英语来说,每个字母就是一个token,每一个单词就是一个tokens。

但在NLP中,tokens并不一定代表完整的单词,如re、ug等没有实际意义的字母组合也算一个tokens。

在最早提出Transformer架构的论文《Attentionisallyouneed》里,就提到了BPE(Byte-PairEncoding)编码方法,简单来说,BPE就是通过分析训练集中每个单词的组成,创建一个基础词汇表,词汇表里涵盖了一定数量最常用的tokens。

模型中tokens的数量是超参数,也就是训练模型中人为规定的。

DALL·E同时包含着BPE编码的文本和图像词汇表,分别涵盖了16384、8192个tokens。

当需要生成图片时,它以单一数据流的形式,接收1280个文本和图像的tokens(文本256个tokens,图像1024个tokens),建立回归模型。

与大多数Transformer模型一样,DALL·E也采用自注意力机制(Self-Attention),分析文本内部的联系。

在DALL·E的64层自注意层中,每层都有一个注意力mask,就是为了使图像的每个tokens都能匹配文本tokens。

OpenAI也表示,更具体的架构和详细训练过程会在之后的博客中公布。

02.普适的DALL·E:从改变物体关系到创造“不存在”

比起长篇累牍地描述自己模型的优越性,OpenAI则是用大量实测案例证明了自己。

1、改变单个物体的某个属性

如动图所示,我们可以通过简单地改变按钮选项,将钟改为花盆,再将绿色改为黄色,再将三角形改为正方形。

▲原输入文本:三角形绿色的钟2、同时改变多个物体以及其位置关系

▲将上方的物块改成书,再将物体的上下叠放关系改成左右摆放。当一句话含有多个主体时,例如“红色的物块放在绿色的物块上面”,DALL·E需要分辨出这两个物块是两个不同的物体,且他们之间的位置关系是上下叠放。

但OpenAI的研究人员也承认,随着输入文本中描述主体的增多和关系的复杂,DALL·E生成的图像会更不准确。

▲输入文本:一堆立方体,红色的立方体在绿色立方体的顶部,绿色立方体在中间,蓝色立方体在底部。3、可视化透视与背景

▲将特写图改成前视图,将背景从草地改成山上。除了二维图像理解,DALL·E也能将某些类型的光学畸变(OpticalDistortions)应用到具体场景中,展现出“鱼眼透视”或“球形全景态”图等效果。

4、内外部结构

▲输入文本:核桃横截面图5、上下文推理

将文本目标“翻译”成图像这个问题,是没有唯一答案的,且语言中常含有字面所没有的引申义。

如“日出时,坐在田野上的水豚的绘画像”这一文本目标,其中并没有提到水豚的阴影,但根据经验我们也能知道,日出时,水豚必然会有由于阳光照射产生阴影。

因此,DALL·E就需要通过Transformer中的上下文推理,通过自己的“经验”,得到这一结论。

▲输入文本:日出时,坐在田野上的水豚的绘画像。6、不存在的物品

DALL·E还具有将完全不同的物品合成起来的能力,创造一些现实世界不可能出现的物体。

▲输入文本:竖琴状的蜗牛03.“zero-shot”践行者:按词分图的CLIP

如果说DALL·E是GPT-3在图像领域的延伸,那CLIP就是主打“zero-shot(零样本)”,攻破视觉领域的深度学习方法的三大难题。

1、训练所需大量数据集的采集和标注,会导致的较高成本。

2、训练好的视觉模型一般只擅长一类任务,迁移到其他任务需要花费巨大成本。

3、即使在基准测试中表现良好,在实际应用中可能也不如人意。

对此,OpenAI联合创始人IlyaSutskever曾发文声称,语言模型或是一种解法,我们可以通过文本,来修改和生成图像。

基于这一愿景,CLIP应运而生。

CLIP全称是ContrastiveLanguage-ImagePre-training,根据字面意思,就是对比文本-图像预训练模型,只需要提供图像类别的文本描述,就能将图像进行分类。

怎么分?为什么能分?

CLIP靠的就是预训练阶段,OpenAI从互联网中收集的4亿个文本-图像对。接着,凭着与GPT-2/3相似的“zero-shot”设计,CLIP在不直接针对基准进行优化的同时,表现出优越的性能:鲁棒性差距(robustnessgap)缩小了75%,性能和深度残差网络ResNet50相当。

也就是说,CLIP无需使用ResNet50同样大的训练样本,就达到了原始ResNet50在ImageNet数据集上的精确度。

在众多数据集上,CLIP都有着可以与ResNet50升级版ResNet101媲美的精度,其中ObjectNet数据集代表模型识别物体不同形态和背景的能力,ImageNetRendition和ImageNetSketch代表模型识别抽象物体的能力。

虽然二者在ImageNet测试集上的表现相差无几,但非ImageNet设置更能代表CLIP优秀的泛化能力。

为了识别出未曾见过的类别(图像或文本),Zero-shot这一概念可以追溯到十年前,而目前计算机视觉领域应用的重点是,利用自然语言作为灵活的预测空间,实现泛化和迁移。

在2013年,斯坦福大学的RicherSocher教授就曾在训练CIFAR-10的模型时,在词向量嵌入空间中进行预测,并发现该模型可以预测两个“未见过”的类别。

刚刚登上历史舞台、用自然语言学习视觉概念的CLIP则带上了更多现代的架构,如用注意力机制理解文本的Transformer、探索自回归语言建模的Virtex、研究掩蔽语言建模的ICMLM等。

04.解析,CLIP的“足”与“不足”

在对CLIP有一个基本的认识后,我们将从四个方面详细剖析CLIP。

1、从CLIP流程,看三大问题如何解决

简单来说,CLIP的任务就是识别一张图像所出现的各种视觉概念,并且学会它的名称。比如当任务是对猫和狗的图片进行分类,CLIP模型就需要判断,目前处理的这张图片的文字描述是更偏向于“一张猫的照片”,还是一张狗的照片。

在具体实现上,有如下流程:预训练图像编码器和文本编码器,得到相互匹配的图像和文本,基于此,CLIP将转换为zero-shot分类器。此外,数据集的所有类会被转换为诸如“一只狗的照片”之类的标签,以此标签找到能够最佳配对的图像。

在这个过程中,CLIP也能解决之前提到的三大问题。

1、昂贵的数据集:25000人参与了ImageNet中1400万张图片的标注。与此相比,CLIP使用的是互联网上公开的文本-图像对,在标注方面,也利用自监督学习、对比方法、自训练方法以及生成建模等方法减少对人工标注的依赖。

2、只适用于单一任务:由于已经学会图片中的各种视觉概念,所以CLIP可以执行各种视觉任务,而不需要额外的训练和调整。如下也展示了CLIP模型识别各类型图像中视觉概念,无论是食物、场景还是地图,都是有不错的表现。

3、实际应用性能不佳:基准测试中表现好的模型在实际应用中很可能并没有这么好的水平。就像学生为了准备考试,只重复复习之前考过的题型一样,模型往往也仅针对基准测试中的性能进行优化。但CLIP模型可以直接在基准上进行评估,而不必在数据上进行训练。

2、CLIP的“足”:高效且灵活通用。

CLIP需要从未经标注、变化多端的数据中进行预训练,且要在“zero-shot”,即零样本的情况下使用。GPT-2/3模型已经验证了该思路的可行性,但这类模型需要大量的模型计算,为了减少计算量,OpenAI的研究人员采用了两种算法:对比目标(contrastiveobjective)和VisionTransformer。前者是为了将文本和图像连接起来,后者使计算效率比标准分类模型提高了三倍。

▲CLIP模型在准确率和处理图像大小上都优于其他两种算法。由于CLIP模型可以直接从自然语言中学习许多视觉概念,因此它们比现有的ImageNet模型更加灵活与通用。OpenAI的研究人员在30多个数据集上评估了CLIP的“zero-shot”性能,包括细粒度物体分类,地理定位,视频中的动作识别和OCR(光学字符识别)等。

下图也展示了12种模型在27种数据集准确率和处理图像大小的比较。CLIP-ViT和CLIP-ResNet两类CLIP方法都遥遥领先。

3、CLIP的“不足”:复杂任务仍有差距

尽管CLIP在识别常见物体上表现良好,但在如计算图像中物品数量、预测图片中物品的位置距离等更抽象、复杂的任务上,“zero-shot”CLIP表现仅略胜于随机分类,而在区分汽车模型、飞机型号或者花卉种类时,CLIP也不好。

且对于预训练阶段没有出现过的图像,CLIP泛化能力也很差。例如,尽管CLIP学习了OCR,但评估MNIST数据集的手写数字上,“zero-shot”CLIP准确率只达到了88%,远低于人类在数据集中的99.75%精确度。最后,研究人员发现,CLIP的“zero-shot”分类器对单词构造或短语构造比较敏感,但有时还是需要试验和错误“提示引擎”的辅助,才能表现良好。

4、CLIP未来:算法公正仍需努力

研究人员也在博客中提到,CLIP更大的潜力是允许人们设计自己的分类,无需使用特定任务的训练数据。因为分类的定义方法会影响模型的性能和偏差。

如果CLIP中添加的标签包括Fairface种族标签(FairFace是一个涵盖不同人种、性别的面部图像数据集)和少数负面名词,例如“犯罪”,“动物”等,那么很可能大约32.3%年龄为0至20岁的人像会被划分到负面类别中,但在添加“儿童”这一标签后,负面类别的比例大约下降到8.7%。

此外,由于CLIP不需要针对特定任务训练数据,所以能够更轻松地完成一些任务。但这些任务会不会涉及到特定的隐私和监视风险,需要进一步的研究。

05.模型很厉害,监管需谨慎

无论是DALL·E还是CLIP,都采用不同的方法在多模态学习领域跨出了令人惊喜的一步。

但OpenAI的研究人员也反复强调,越强大的模型一旦失控,后果也越加可怕,所以两个模型后续的关于“公平性”、“隐私性”等问题研究也会继续进行。

今后,文本和图像的界限是否会进一步被打破,我们能否能顺畅地用文字“控制”图像的分类和生成,在现实生活中将会带来怎样的改变,都值得我们期待。

来源:OpenAI

文本生成图像论文精读 GAN

本文已参加「新人创作礼」活动,一起开启掘金创作之路。

这是一篇用GAN做文本生成图像(TexttoImage、T2I)的论文,文章在2016年由Reed等人发布,被ICML会议录取。可以说是用GAN做文本生成图像的开山之作。

论文链接:arxiv.org/pdf/1605.05…

代码链接:https://github.com/zsdonghao/text-to-image

本篇文章是精读这篇论文的报告,包含一些个人理解、知识拓展和总结。

一、摘要

从文本中自动合成真实图像将是有趣和有用的,但目前的人工智能系统离这一目标还很远。然而,近年来,人们发展了通用的、功能强大的递归神经网络结构来学习区分性文本特征表示。与此同时,深度卷积生成性对抗网络(GAN)已经开始生成特定类别的极具吸引力的图像,如人脸、专辑封面和房间内部。在这项工作中,我们用GAN开发了一种新的深层架构,以有效地桥接文本和图像建模方面的这些进展,将视觉概念从字符转换为像素。我们展示了该模型能够从详细的文本描述中生成似是而非的鸟和花的图像。

二、关键词

DeepLearning,GenerativeAdversarialNetwork,ImageSynthesis,ComputerVision

三、相关工作

本研究方向是多模态机器学习一个子集。模态:每一种信息的来源或者形式,都可以称为一种模态。例如,人有触觉,听觉,视觉嗅觉;信息的媒介,有语音、视频、文字等;多种多样的传感器,如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。多模态学习旨在通过机器学习的方法实现处理和理解多源模态信息的能力,多模态学习中的关键挑战包括学习跨模态的共享表示,以及以另一种模态为条件预测一种模态中的缺失数据。

Denton等人(2015)使用拉普拉斯金字塔对抗生成器和鉴别器合成多分辨率图像。这项工作生成了引人注目的高分辨率图像,并且还可以对类标签进行控制生成。拉普拉斯金字塔生成式对抗网络。图像金字塔是图像中多尺度表达的一种,一幅图像的金字塔是一系列以金字塔形状排列的分辨率逐步降低,且来源于同一张原始图的图像集合。拉普拉斯金字塔:用来从金字塔低层图像重建上层未采样图像,在数字图像处理中也即是预测残差,可以对图像进行最大程度的还原,高斯金字塔用来向下降采样图像,而拉普拉斯金字塔则用来从金字塔底层图像中向上采样(即尺寸加倍,分辨率++)重建一个图像。

Radford等人(2016)使用了标准卷积解码器,但开发了一种高效稳定的体系结构,结合批量标准化,以实现显著的图像合成结果。Mansimov等人(2016年)中,使用可变循环自动编码器(VAE)从文本标题生成图像,但生成的图像还不真实。

该文章与上面描述的GAN的主要区别在于,1)我们的模型条件是文本描述,而不是类标签。2)第一个从字符级别到像素级别端到端的架构。3)引入了一个流形插值正则化器,能显著提高生成样本的质量。

四、背景知识4.1、GAN

损失函数为:GAN有关的数学知识可以看这篇博客:深入浅出理解GAN中的数学原理

4.2、Deepsymmetricstructuredjointembedding

为了获得文本描述的视觉辨别矢量表示,文章用《LearningDeepRepresentationsofFine-GrainedVisualDescriptions》中的方法,使用卷积循环神经网络文本编码器,学习与图像的对应函数,如下式。包括一个图像分类器和一个文本分类器,在本文中,图像分类器用的是GoogLeNet,文本分类器用的是LSTM和CNN。得到文本特征后,需要把文本特征压缩后与图像特征拼接在一起,放入DC-GAN。

三、主要方法3.1、框架

训练了一个基于卷积循环神经网络文本编码器的深度卷积生成对抗网络(DC-GAN)。生成器网络G和鉴别器网络D均根据文本特征执行前馈推理。其中,生成器和鉴别器都使用文本编码φ(t)。生成器G将文本信息经过预处理(卷积循环神经网络文本编码器)得到特征表达,然后将其和噪声向量组合在一起。在上图中蓝色长方体就代表文本信息的特征表达,z对应的白色长方体是噪声向量。将得到的组合向量输入到反卷积网络中,经过多层处理最终得到一幅图像。判别器D将图像进行卷积操作之后,将文本信息在深度方向上和原图像卷积得到的特征向量组合在一起,最后得到一个二值元,用来判断图像的真假。

3.2、第一个改进:GAN-CLS

GAN-CLS:匹配感知鉴别器。在以前的对抗网络中,判别器D的输入包括两种:正确的图片和其对应的文本,合成的图片和任意文本。那么判别器就要识别出两种情况:一是判别出合成的图片,二是真实图片与不匹配的文本。本文中将D的输入增加了一种:真实图像和错误的文本描述。通过这样的方法,让D能够更好地学习文本描述和图片内容的对应关系。伪代码为:

3.3、第二个改进:GAN-INT

GAN-INT:流形插值学习。通过简单地在训练集文本的嵌入之间进行插值来生成大量额外的文本嵌入。关键的是,这些插入的文本嵌入不需要对应于任何实际的书面文本,因此没有额外的标签成本。这是因为深度网络学习到的特征表示具有可插值性。两个代表不同意义的句子A和B,A和B中间意思的句子C的embedding会和A和B分别的embedding的均值比较接近。比如“A:一只牛在吃草”和“B:一只鸟在树上”,深度特征插值后可能出现“C:一只牛在树上”,其与A、B的embedding很接近。1)融合两个文本的公式:beta是融合的比例,论文中取0.5,也就是各个句子融合一半

2)风格迁移公式:S提取生成器一张图像的风格信息,得到s(style),其次将随机噪声换成提取到的s,s与embedding(t)输入生成器中,生成某风格下的图像。

四、实验4.1、数据集

数据集:使用了CUB(鸟)、Oxford-102(花)。CUB分为有150个训练类集合和50个测试类集合,而Oxford-102有82个训练类集合和20个测试类集合。每个图像配有5个对应文本。

4.2、文本特征的预训练

对于文本特征,首先使用了卷积循环神经网络文本编码器进行预训练,即char-CNN+RNN,将其与1024维GoogLeNet图像(Szegedy在2015)嵌入进行结构化联合嵌入。对文本编码器进行预训练的原因只是为了提高训练其他组件的速度,以便更快地进行实验。

4.3、训练过程

训练图像大小设置为64×64×3。文本编码器产生1024维嵌入,在深度连接到卷积特征映射之前,在生成器和鉴别器中投影到128维。采取交替步骤更新生成器和鉴别器网络,学习率设置为0.0002,使用了ADAMsolver(动量0.5),生成器的随机噪声从100维单位正态分布取样。Minibatch的大小为64,训练了600个epoch。

4.4、实验结果

4.5、分离内容和风格

所谓内容,我们指的是鸟本身的视觉属性,如身体的形状、大小和颜色。所谓风格,我们指的是图像中所有其他变化因素,如背景颜色和鸟的姿势。文本嵌入主要包括内容信息,通常与样式无关,GAN使用随机噪声来制作风格。使用K-means将图像分组为100个簇,其中来自同一簇的图像共享相同的样式。相同风格(例如相似姿势)的图像之间的相似性应高于不同风格的图像之间的相似性。GAN-INT、GANINT-CLS的模型在这项任务中表现最好。

文章把图像根据图的背景色,鸟或者花的姿态利用k-means聚成了100个类。用训练的CNN网络用G生成的图片预测style,并计算style和其同类与不同类图像的cos相似度。从下图中可看出,文本caption表现出一条直线,说明文本和图像的style是完全没有关系的(ROC曲线越是靠近左上角,灵敏度越高,误判率越低,则诊断方法的性能越好)

4.6、流形插值的结果

通过插值学习的文本流形,通过控制插值可以准确反映颜色信息,例如鸟类从蓝色变为红色,而姿势和背景不变。通过控制两个噪声向量之间进行插值,并保持内容固定,生成两种样式之间平滑过渡的鸟类图像。如下图,左图是保证随机噪声不变,改变两个句子的权重大小(即内容变、风格不变)。右图是保证句子不变,对两个随机噪声做插值(即内容不变风格变)。

4.7、泛化性

作者为了测试泛化性,在MS-COCO数据集上面进行了训练测试。从远处看,结果令人鼓舞,但经过仔细观察,很明显,生成的场景通常不连贯。

4.8、实验结论

开发了一个简单有效的模型,用于根据详细的视觉文本描述生成图像。我们证明了该模型可以合成给定文本标题的许多合理的视觉解释。我们的流形插值正则化器大大改进了CUB上的文本到图像合成。我们展示了风格和内容的分离,以及从查询图像到文本描述的鸟姿和背景转换。最后,我们用MS-COCO数据集上的结果证明了我们生成具有多个对象和可变背景的图像的方法的通用性。

五、心得

这篇文章是用GAN做文本生成图像的开山之作,作者使用了卷积循环神经网络文本编码器+深度卷积生成对抗网络(DC-GAN)。在此基础上,作者还做了三点改进:

1)GAN-CLS:匹配感知鉴别器,其加入一组:真实图像和错误的文本描述的输入,通过这样的方法,让D能够更好地学习文本描述和图片内容的对应关系。

2)GAN-INT:流形插值学习,在训练集文本的嵌入之间进行插值,增加文本的变化,从而让G具有更强大的生成能力。

3)分离内容和风格:使用随机噪声来制作风格,使用K-means将图像分组为100个簇进行风格阐述。让z能够特征化风格,从而解决文本描述本身不对风格进行任何阐述的问题,随机化的z可以加入不同的风格,从而增加生成样本的真实性与多样性。

补充知识点:受试者工作特征曲线(receiveroperatingcharacteristiccurve,简称ROC),又称为感受性曲线(sensitivitycurve)。ROC曲线下面积(theareaundertheROCcurve,AUC)是指ROC曲线与x轴、x=1围绕的面积,只要ROC曲线下面积大于0.5,就证明该诊断试验具有一定的诊断价值。同时,AUC越接近1证明诊断试验的真实性越好。ROC曲线越是靠近左上角,灵敏度越高,误判率越低,则诊断方法的性能越好。可知ROC曲线上最靠近左上角的ROC曲线上的点其灵敏度和特异性之和最大。

扩展阅读

下一篇:Texttoimage论文精读StackGAN:TexttoPhoto-realisticImageSynthesiswithStackedGAN具有堆叠生成对抗网络文本到图像合成

阅读指南:2016~2021文字生成图像Texttoimage(T2I)阅读路线和阅读指南

2021文本生成图像最新综述阅读报告:AdversarialText-to-ImageSynthesis:AReview

文本生成图像(text

多模态机器学习:我们对世界的体验是多模态的——我们看到物体,听到声音,感觉到纹理,闻到气味,尝到味道。模态是指某件事情发生或经历的方式,一个研究问题如果包含多个模态,就被称为多模态。为了让人工智能在理解我们周围的世界方面取得进展,它需要能够一起解释这种多模态信号。多模式机器学习旨在建立能够处理和关联来自多种模式的信息的模型。这是一个日益重要和具有非凡潜力的充满活力的多学科领域。

生成符合给定文本描述的真实图像(text-to-image)是多模态任务之一,具有巨大的应用潜力,如图像编辑、视频游戏和计算机辅助设计。最近,由于生成对抗网络(GANs)在生成真实感图像方面的成功,文本到图像的生成取得了显著进展。文本到图像的生成创作需要对被创造的事物有深刻的理解:厨师、小说家和电影制作人必须比食客、读者或电影观众更深刻地理解食物、写作和电影。如果我们的计算机视觉系统要真正理解视觉世界,它们不仅必须能够识别图像,而且必须能够生成图像。除了传授深刻的视觉理解,生成逼真图像的方法也可以是实际有用的。在短期内,自动图像生成可以帮助艺术家或平面设计师的工作。有一天,我们可能会用生成定制图像和视频的算法来取代图像和视频搜索引擎,以响应每个用户的个人喜好。

文本生成图像(text-to-image)相关工作相较于图像描述(imagecaptioning),图像所包含的信息更为复杂,因此生成图像任务的提出晚于图像描述。自从GAN网络被提出,神经网络产生的图像接近真实图像,为解决Text-to-image问题找到了解决思路。 

1.text-to-image的首次提出

ScottReedS在2016年首次提出了能根据文字生成图片的GAN[10]。论文介绍了如何通过GAN进行从文字到图像的转化。比方说,若神经网络的输入是“粉色花瓣的花”,输出就会是一个包含了这些要素的图像。该任务包含两个部分:

利用自然语言处理来理解输入中的描述。生成网络输出一个准确、自然的图像,对文字进行表达。  

 图3.1.text-conditionalconvolutionalGANarchitecture.[1] 

 2.StackGAN(ZhangH,etal,ICCV2017) 

2017年,ShaotingZhang等人[11]提出了基于文本描述的堆叠生成式对抗网络(StackGAN)来生成256×256的真实感图像,通过一个粗略的细化过程将难题分解为更容易处理的子问题。

第一阶段GAN根据给定的文本描述绘制对象的原始形状和颜色,生成阶段i的低分辨率图像。第二阶段GAN将第一阶段的结果和文本描述作为输入,生成具有照片般逼真细节的高分辨率图像。它能够纠正第一阶段结果中的缺陷,并通过细化过程添加引人注目的细节。为了提高合成图像的多样性,稳定conditional-GAN的训练,作者引入了一种新的条件增强技术,使潜在条件集平滑。 

 图3.2ThearchitectureoftheproposedStackGAN.[2] 

 3.Stackgan++(ZhangH,elat,TPAMI2018) 

虽然生成式对抗网络(GANs)已经在各种任务中显示出显著的成功,但在生成高质量的图像方面仍然面临挑战。在这篇论文中,ZhangH等人[12]对之前的StackGAN进行改进,提出了堆叠生成对抗网络(StackGANs),旨在生成高分辨率的真实感照片。首先,我们提出了一个两阶段生成式对抗网络架构,StackGAN-v1,用于文本到图像的合成。

第一阶段GAN根据给定的文本描述描绘场景的原始形状和颜色,生成低分辨率的图像。

第二阶段GAN将第一阶段的结果和文本描述作为输入,生成具有照片般逼真细节的高分辨率图像。其次,针对有条件和无条件生成任务,提出了一种先进的多阶段生成式对抗网络体系结构StackGAN-v2。StackGAN-v2由多个生成器和多个鉴别器组成,它们排列成树状结构;同一场景对应的多个尺度的图像来自于树的不同分支。通过联合逼近多个分布,StackGAN-v2比StackGAN-v1表现出更稳定的训练行为。

 图3.3ThearchitectureoftheproposedStackGAN++.[3] 

 4.Attngan(XuT,elat,CVPR2018) 

在这篇论文中,XuT等人[13]提出了一个注意力对抗生成网络(AttnGAN),它允许注意力驱动的、多阶段的细化来生成细粒度的文本到图像。该算法利用一种新颖的注意力生成网络,通过关注自然语言描述中的相关词汇,在图像的不同亚区合成精细的细节信息。此外,提出了一种基于深度注意的多模态相似度模型来计算用于训练生成器的细粒度图像-文本匹配损失。提出的AttnGAN大大优于先前的技术水平,在CUB数据集上的最佳初始记录提高了14.14%,在更具挑战性的COCO数据集上的最佳初始记录提高了170.25%。详细的分析也进行了可视化的注意层的AttnGAN。这首次表明,分层注意GAN能够自动选择字级条件来生成图像的不同部分。

 图3.4ThearchitectureoftheproposedAttnGAN.[4] 

5.Imagegenerationfromscenegraphs(JohnsonJ,elat,CVPR2018)

最近在从自然语言描述生成图像方面取得了令人兴奋的进展,这些方法在有限的领域(如对鸟或花的描述)给出了惊人的结果,但很难用许多对象和关系忠实地再现复杂的句子。为了克服这一限制,李飞飞研究团队中的JohnsonJ等人[14]提出了一种从场景图生成图像的方法,能够显式地推理对象及其关系。我们的模型使用图形卷积来处理输入图形,通过预测物体的边界框和分割掩码来计算场景布局,并将布局转换为具有级联细化网络的图像。该网络是针对一对鉴别器进行反向训练,以确保实际输出。我们的方法能够生成具有多个对象的复杂图像。 

 图3.5Overviewofimagegenerationnetworkfforgeneratingimagesfromscenegraphs.[5]   

6.Controllabletext-to-imagegeneration(LiB,elal,NeuralIPS2019) 

LiB等人[16]提出了一种可控的文本-图像生成对抗网络(ControlGAN),该网络既能有效地合成高质量的图像,又能根据自然语言描述控制图像生成的各个部分。为了实现这一目标,作者引入了一个词级空间和信道级注意力驱动的生成器,它可以分离不同的视觉属性,并允许模型专注于生成和操作与最相关的词对应的子区域。同时,提出了一种词级鉴别器,通过将字与图像区域相关联来提供细粒度的监督反馈,便于训练一种有效的生成器,该生成器能够在不影响其他内容生成的情况下操作特定的视觉属性。

此外,感知损失被用来减少图像生成的随机性,并鼓励生成器操作修改后文本中需要的特定属性。在基准数据集上的大量实验表明,该方法优于现有的技术水平,并且能够使用自然语言描述有效地操作合成图像。 

图3.6ThearchitectureofControlGAN.[6]

参考文献:

[1]    ReedS,AkataZ,YanX,etal.Generativeadversarialtexttoimagesynthesis[J].arXivpreprintarXiv:1605.05396,2016.

[2]    ZhangH,XuT,LiH,etal.Stackgan:Texttophoto-realisticimagesynthesiswithstackedgenerativeadversarialnetworks[C]//ProceedingsoftheIEEEInternationalConferenceonComputerVision.2017:5907-5915. 

[3]    ZhangH,XuT,LiH,etal.Stackgan++:Realisticimagesynthesiswithstackedgenerativeadversarialnetworks[J].IEEEtransactionsonpatternanalysisandmachineintelligence,2018,41(8):1947-1962. 

[4]    XuT,ZhangP,HuangQ,etal.Attngan:Fine-grainedtexttoimagegenerationwithattentionalgenerativeadversarialnetworks[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.2018:1316-1324. 

[5]    JohnsonJ,GuptaA,Fei-FeiL.Imagegenerationfromscenegraphs[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.2018:1219-1228. 

[6]    LiB,QiX,LukasiewiczT,etal.Controllabletext-to-imagegeneration[C]//AdvancesinNeuralInformationProcessingSystems.2019:2063-2073.

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇