博舍

图像生成 人工智能图像生成技术

图像生成

描述一张图像对人类来说相当容易,我们在很小的时候就能做到。在机器学习中,这项任务是一个判别分类/回归问题,即从输入图像预测特征标签。随着最近ML/AI技术(尤其是深度学习模型)的进步,它们开始在这些任务中脱颖而出,有时会达到甚至超过人类的表现,如视觉目标识别(例如,从AlexNet到ResNet在ImageNet分类任务上的表现)和目标检测/分割(如从RCNN到YOLO在COCO数据集上的表现)等场景中展示的一样。

然而,另一方面,基于描述生成逼真图像却要困难得多,需要多年的平面设计训练。在机器学习中,这是一项生成任务,比判别任务难多了,因为生成模型必须基于更小的种子输入产出更丰富的信息(如具有某些细节和变化的完整图像)。

虽然创建此类应用程序困难重重,但生成模型(加一些控制)在很多方面非常有用:

内容创建:想象一下,广告公司可以自动生成具有吸引力的产品图像,而且该图像不仅与广告内容相匹配,而且与镶嵌这些图片的网页风格也相融合;时尚设计师可以通过让算法生成20种与「休闲、帆布、夏日、激情」字样有关的样鞋来汲取灵感;新游戏允许玩家基于简单描述生成逼真头像。内容感知智能编辑:摄影师可以通过几次单击改变证件照的面部表情、皱纹数量和发型;好莱坞制片厂的艺术家可以将镜头里多云的夜晚转换成阳光灿烂的早晨,而且阳光从屏幕的左侧照射进来。数据增强:自动驾驶汽车公司可以通过合成特定类型事故现场的逼真视频来增强训练数据集;信用卡公司可以合成数据集中代表性不足的特定类型欺诈数据,以改进欺诈检测系统

[描述来源:定制人脸图像没那么难!使用TL-GAN模型轻松变脸|机器之心]

发展历史

2014年,还在蒙特利尔读博士的IanGoodfellow将GAN引入深度学习领域,到目前为止,GAN模型已经是图像生成模型的首选之一了。

2016年,ScottReed,HonglakLee等人开发了一种新的GAN架构,以有效地桥接文本和图像建模之间的步骤,将视觉概念从字符转换为像素。他们并且展示了他们的模型从详细的文字描述中生成合理的鸟和花图像的能力。HanZhang,DimitrisMetaxas等人扩展了这个方法,提出了堆叠生成对抗网络(StackGAN)来生成基于文本描述的256x256照片真实图像。他们通过草图细化过程将难题分解为更易于管理的子问题。Stage-IGAN根据给定的文本描述绘制对象的原始形状和颜色,产生Stage-I低分辨率图像。Stage-IIGAN将Stage-I结果和文本描述作为输入,并生成具有照片般逼真细节的高分辨率图像。它能够纠正第一阶段结果中的缺陷,并通过细化过程添加引人注目的细节。为了改善合成图像的多样性并稳定条件GAN的训练,他们引入了一种新的调节增强技术,该技术可以促进潜在调节声称图像的平滑性。广泛的实验和与基准数据集上的当时技术的比较表明,他们所提出的方法在生成以文本描述为条件的照片般逼真的图像方面实现了显着的改进。

2018年,HanZhang,IanGoodfellow,DimitrisMetaxas,AugustusOdena提出了自我注意生成对抗网络(SAGAN),它允许注意力驱动的远程依赖建模用于图像生成任务。传统的卷积GAN生成高分辨率细节,仅作为低分辨率特征图中空间局部点的函数。在SAGAN中,可以使用来自所有要素位置的提示生成详细信息。此外,鉴别器可以检查图像的远端部分中的高度详细的特征是否彼此一致。SAGAN已经将ImageNet在生成上的IS达到了52分。

DeepMind带来的BigGAN创造性的将正交正则化的思想引入GAN,通过对输入先验分布z的适时截断大大提升了GAN的生成性能,BigGAN在SAGAN的基础上一举将IS提高了100分,达到了166分。

主要事件年份事件相关论文/Reference2014IanGoodfellowetal.提出了生成对抗网络(GAN),这是一种无监督学习方法Goodfellow,I.,Pouget-Abadie,J.,Mirza,M.,Xu,B.,Warde-Farley,D.,Ozair,S.,...&Bengio,Y.(2014).Generativeadversarialnets.InAdvancesinneuralinformationprocessingsystems(pp.2672-2680).2016ScottReed,HonglakLee等人开发了一种新的GAN架构,以有效地桥接文本和图像建模之间的步骤Reed,S.;Akata,Z.;Yan,X.;Logeswaran,L.;Schiele,B.andLee,H.(2016).Generativeadversarialtext-to-imagesynthesis.ICML.2017HanZhang,DimitrisMetaxas等人扩展了这个方法,提出了堆叠生成对抗网络(StackGAN)来生成基于文本描述的256x256照片真实图像Zhang,H.;Xu,T.;Li,H.;Zhang,S.;Huang,X.;Wang,X.andMetaxas,D.(2017).Stackgan:Texttophoto-realisticimagesynthesiswithstackedgenerativeadversarialnetworks.ICCV.2018HanZhang,IanGoodfellow,DimitrisMetaxas,AugustusOdena提出了自我注意生成对抗网络(SAGAN)Zhang,H.;Goodfellow,I.;Metaxas,D.;Odena,A.(2018). Self-AttentionGenerativeAdversarialNetworks. arXiv:1805.08318.2018DeepMind带来的BigGAN创造性的将正交正则化的思想引入GANBrock,A.;Donahue,J.;Simonyan,K.(2018). LargeScaleGANTrainingforHighFidelityNaturalImageSynthesis. arXiv:1809.11096.发展分析瓶颈

目前BigGAN等模型等模型取得了前所未有的逼真效果,但其所需要训练的参数也是巨量的,这对硬件的要求很高。

未来发展方向

丰富的背景和纹理图像的生成是各类生成模型追求的终极目标,像BigGAN等模型正在朝着这个方向前进,他们的特点主要是:

通过大规模GAN的应用,BigGAN实现了生成上的巨大突破;采用先验分布z的“截断技巧”,允许对样本多样性和保真度进行精细控制;在大规模GAN的实现上不断克服模型训练问题,采用技巧减小训练的不稳定。

Contributor:YuanyuanLi

AI图像生成器:2023年10款最棒的人工智能图像生成器

随着人工智能技术的飞速发展,图像生成技术也逐渐走向成熟。在本次介绍的10个AI图像生成器s中,我们可以看到各种不同的技术和应用场景,从风格化的卡通图像到写实的人像照片,再到自动生成的艺术品和建筑设计,这些工具已经成为了许多领域的重要工具。

同时,AI图像生成技术也面临着挑战和限制,例如数据样本的质量和数量、计算能力的限制以及伦理和隐私问题等。在使用这些工具时,我们需要注意这些问题,确保在技术的发展中保持可持续和负责任的态度。

在这些AI图像生成器s中,个人最推荐使用的是MidJourney,它在自然语言理解和图片输出上都做得非常好,尤其是在人体细节的刻画上,已经领先了同类产品一大截。而如果您想尝试艺术图像生成的话,Nightcafe是一个不错的选择。其他的AI图像生成器也各有其擅长的领域,如DeepDreamGenerator在enhanceimage方面就表现不错。

总的来说,AI图像生成器s的出现为我们带来了更多的创造力和想象力,让我们可以用新的方式去探索和表达世界。它们的未来发展也将会与我们的创造力和想象力一起不断地推动着技术的前进,创造出更加美好和繁荣的未来。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇