博舍

生成人工智能研究为创作者提供引导式图像结构控制 人工智能可控

生成人工智能研究为创作者提供引导式图像结构控制

 

新的研究正在提升人工智能的创造力,通过文本引导的图像编辑工具。这项研究提出了一种使用即插即用扩散特征(PnP-DF)的框架,可以指导真实和精确的图像生成。视觉内容创作者可以通过一个提示图像和几个描述性单词,将图像转换为视觉效果。

可靠而轻松地编辑和生成内容的能力有可能扩大艺术家、设计师和创作者的创作可能性。它还可以加强依赖动画、视觉设计和图像编辑的行业。

“最近的文本到图像生成模型标志着数字内容创作进入了一个新时代。然而,将它们应用于现实世界应用程序的主要挑战是缺乏用户可控性,这在很大程度上被限制为仅通过输入文本来指导生成。我们的工作是为用户提供对图像布局控制的首批方法之一,”NarekTumanyan说,魏茨曼科学研究所的主要作者和博士候选人。

最近在生成人工智能方面的突破为开发强大的文本到图像模型开辟了新的途径。然而,复杂性、模糊性和对自定义内容的需求限制了当前的渲染技术。

该研究介绍了一种使用PnPDFs的新方法,该方法改进了图像编辑和生成过程,使创作者能够更好地控制其最终产品。

研究人员从一个简单的问题开始:扩散模型是如何表示和捕捉图像的形状或轮廓的?该研究探索了图像在生成过程中的内部表征,并考察了这些表征如何编码形状和语义信息。

新方法控制生成的布局,而无需训练新的扩散模型或对其进行调整,而是通过理解空间信息是如何在预训练的文本到图像模型中编码的。在生成过程中,模型从引入的引导图像中提取扩散特征,并将其注入生成过程的每个步骤,从而对新图像的结构进行细粒度控制。

通过结合这些空间特征,扩散模型对新图像进行细化,以匹配制导结构。它迭代地执行这一操作,更新图像特征,直到它降落在最终图像上,该图像保留了指南图像布局,同时也匹配了文本提示。

作者写道:“这产生了一种简单有效的方法,将从制导图像中提取的特征直接注入到翻译图像的生成过程中,不需要训练或微调。”。

这种方法为更先进的受控生成和操作方法铺平了道路。

视频1。“文本驱动的图像到图像翻译的即插即用扩散特征”研究综述2023ConferenceonComputerVisionandPatternRecognition(CVPR)

研究人员利用cuDNN加速PyTorch框架,在NVIDIAA100GPU平台上开发和测试了PNP模型。据该团队称,GPU的大容量使他们能够专注于方法开发。研究人员获得A100的支持,是因为他们参与了NVIDIAAppliedResearchAcceleratorProgram。

该框架部署在A100上,在大约50秒内从引导图像和文本转换出新图像。

这个过程不仅有效而且可靠,可以准确地生成令人惊叹的图像。它还可以超越图像,翻译草图、绘图和动画,并可以修改照明、颜色和背景。

图1。该方法的样本结果保留了引导折纸图像的结构,同时匹配了目标提示的描述(来源:Tumanyan,Narek等人/CVPR2023年)

他们的方法也优于现有的文本到图像模型,在保留制导布局和偏离其外观之间实现了卓越的平衡。

图2:将该模型与P2P、DiffuseIT、具有三种不同噪声水平的SDedit以及VQ+CLIP模型进行比较的示例结果(资料来源:Tumanyan、Narek等人/CVPR2023年)

然而,该模型确实存在局限性。当编辑具有任意颜色的图像部分时,它不能很好地执行,因为模型不能从输入图像中提取语义信息。

研究人员目前正致力于将这种方法扩展到文本引导的视频编辑中。这项工作也被证明对其他利用扩散模型中图像内部表示分析能力的研究有价值。

例如,一项研究利用团队的研究见解来改进计算机视觉任务,如语义点对应。另一个重点是扩大文本到图像生成控制,包括对象的形状、位置和外观。

来自魏茨曼科学研究所的研究小组将在CVPR2023上发表这项作品,该作品也在GitHub上开源。

想要了解更多关于团队的信息,请访问项目页面。阅读研究报告Plug-and-PlayDiffusionFeaturesforText-DrivenImage-to-ImageTranslation。观看NVIDIA研究在CVPR2023上实现的人工智能突破。

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇