博舍

人工智能换发型算法具有中心偏置归一化的多映射图像到图像的翻译 人工智能换发型的软件叫什么

人工智能换发型算法具有中心偏置归一化的多映射图像到图像的翻译

通过数学分析,我们发现潜在代码可以通过影响卷积输出的平均值来控制目标映射。此外,我们发现批量规范化将导致相同映射的不同实例的映射不一致,并且实例规范化将导致不同映射的映射不可区分。因此,我们提出了解决这些问题的多样性设计标准的一致性。根据设计标准,我们提出了中心偏置归一化作为在多映射模型中注入潜码的替代方法。通过用中央偏置发生器替换现有的LCI发生器,我们证明了我们的方法可以稳定地调整输出的分布。

总之,本文做出以下贡献:

•我们推导出潜在代码在多映射任务中的作用是在第III节中控制卷积后的特征映射的平均值。

•据我们所知,我们是第一个指出常见潜在代码注入的潜在问题,并提出多样性标准内的一致性,如第IV节所示。

•根据设计标准,我们提出中心偏置归一化作为第V节中注入潜在代码的替代方法。

II。相关工作

受益于大型公共图像存储库和高性能计算系统,卷积神经网络(CNN)近年来已广泛用于各种图像处理问题。通过最小化评估结果质量的损失函数,CNN尝试对源域和目标域之间的映射建模。

但是,很难为不同的任务手动设计有效且通用的损失函数。为了克服这个问题,最近的研究应用了生成对抗网络(GAN),因为它们使用适应数据而不是特定评估的损失函数。

A.GenerativeAdversarialNetworks

通过举办零和游戏,GAN在图像生成方面取得了令人瞩目的成果[10]-[15]。具有条件设置的GAN的扩展在各种条件生成任务中取得了令人印象深刻的结果,例如图像修复[16],超分辨率[17],text2image[18],多视图合成[19]和图像编辑[20。

B.使用GAN的图像到图像的翻译

受到GAN和条件GAN(cGAN)发展的鼓舞,以前的研究主要集中在成对的[1]和不成对的图像到图像翻译任务[3]-[6]。Pix2pix[1]使用cGAN[21]进行数据对的监督学习。CycleGAN[3],DiscoGAN[5]和DualGAN[4]强制执行不成对的图像到图像转换的循环一致性。UNIT[6]将变分自动编码器[22]与CoGAN[23]结合起来,以学习不同域中图像的联合分布。这些研究促进了一对一映射图像转换的发展,但已经表明多映射转换的可扩展性有限。

C.潜在问题的验证

如第IV节所述,现有的潜码注入模型在建模多映射时存在一些潜在的问题。但是在现有的工作[8],[9]中,为什么具有实例规范化的类似卷积流水线仍然有效?原因是这些网络在卷积操作之前引入零填充(ZP),其旨在控制输出音量的空间大小。在零填充之后,输入体积的潜码通道不再是恒定平面,而是具有零边界的圆。通过卷积运算,潜码编码卷积输出或在Eq。4不是恒定的特征图。卷积激活边界给出了在实例归一化之后保持非边界区域中的多样性的特征图的可能性。但是,如果我们取消零填充或使用其他填充策略(例如反射填充(RP)),这些问题仍然存在。为了验证问题,我们在以下实验中用StarGAN和BicycleGAN中的RP替换ZP。

1)BN的一致性受损:为了验证批量标准化的映射不一致性,我们在CBBN的设置下用建议的CBG模型替换原始发电机。定性比较结果如图7,8所示。为了定量分析模型性能,我们测试了这些模型的多样性和分类误差,如表III,IV所示。我们获得符合定性性能的定量结果。两种常见的潜在代码注入模型都会产生真实的输出,但会失去输出分集。相反,CBG在保持现实的同时产生各种输出。常见LCI模型与CBG之间的主要区别在于归一化后特征映射的平均值。BN的映射不一致性严重影响网络的性能。在训练期间,由于相同映射的特征均值总是在变化,因此网络很难学习确定性映射。在通过CBN校正不一致之后,潜码所指示的映射是稳定的。

2)IN的多样性受损:为了探索实例规范化的映射消除,我们在BicycleGAN和StarGAN中配备了实例规范化。同时,我们在CBIN设置下使用CBG作为比较。我们采用了BicycleGAN的原始实现和UNet发生器[42],它不能在第一个卷积层中进行归一化。由于在IN之后消除了潜码的影响,因此StarGAN无法执行如图7所示的域转换。如果没有第一次卷积的归一化,BicycleGAN可以保留潜码所示的分集,如图8所示。但视觉质量不是很理想。它表明放弃正常化并不是保持深层网络多样性的好主意。在类似的设置下,CBG呈现更令人满意的结果并产生更高的多样性分数。

D.Discussion

1)翻译一致性:除了不同映射的多样性外,多映射模型应考虑相同映射的一致性。对于StarGAN,它可以使用域分类精度作为度量,如表III所示。对于BicycleGAN,我们使用重建损失来测量模型的一致性,如表V所示。随着表IV中的多样性结果,我们可以观察到CBG的一致性和多样性优于BicycleGAN,如图4所示。9.CBG产生的更多一致性结果如图15所示。

2)填充的作用:为了研究填充策略在多映射模型中的作用,我们比较了不同填充设置下模型的性能。正如图7,8中的定性结果所示,我们观察到ZP模式更多传统LCI的RP模式多样且逼真。观察结果也与定量分析结果一致。让我们重新考虑图10中所示的填充策略。如前面部分所述,潜在代码仅在RP模式下提供常量偏移,因此映射不一致和映射消除问题仍然存在。对于ZP模式,潜码的卷积提供了包含非恒定边界和恒定中心区域的特征图。因此,网络能够在规范化之后控制不同映射的特征的分布。由于在IN之后特征均值归一化为零,因此具有ZP的共同LCI模型与我们在表面上的多样性标准不一致。但是除了非恒定边界之外,潜在代码的特征映射确实提供了恒定的偏移。我们认为区分不同映射的关键还在于非边界特征区域的平均值。

在IN+ZP的设置下测试StarGAN后,我们发现特征均值和目标映射密切相关。我们首先使用潜码注入卷积运算对特征映射z进行采样,这是归一化输出。在具有12次转换的测试图像中,计算特征均值而不考虑由填充操作影响的边界区域。为了降低计算复杂度,我们使用主成分分析(PCA)来实现减少统计平均特征图的维数。在保留96%的方差的同时,我们将数据从64维减少到6维。在执行k-means(k=12)聚类之后在低维数据中,我们发现每个簇代表一种映射。我们使用PCA将数据维度减少到2以进行可视化,如图11所示。

这种现象意味着LCI模型的零填充有助于模型通过控制特征的分布来执行多映射。ZP在传统LCI中的作用类似于中心偏置归一化。由于不需要在等式中优化V的冗余参数。3,CBG更直接地优化目标映射。

3)偏置范围:在我们提出的CBN中,我们应用tanh函数来稳定方程中归一化的输出分布。20.这里我们关注不同偏差范围对绩效的影响。我们通过去除tanh函数来扩展偏差范围,并通过用sigmoid替换tanh来缩小范围。我们在基于BicycleGAN的CBG中使用这些策略测试CBIN,并与默认设置(CBIN和ZP)进行比较。如表VI所示,我们发现sigmoid在多样性方面不如tanh。这意味着狭窄的偏差范围将限制网络的代表性。当我们移除约束函数以扩展标签照片任务中的偏差范围时,这一发现得到进一步验证。但我们也观察到去除约束函数会导致训练阶段的不稳定,因为特征分布是无界的。这种现象在边缘照片任务中很明显,因为它具有大量的数据和风格。在这项任务中,我们发现当我们消除偏差约束时,生成器很容易崩溃。所以我们建议使用tanh函数来约束偏差范围,同时保持网络的表示。

4)潜码长度的影响:如朱等人所述。[9],我们探讨了潜码长度对模型性能的影响。在潜码的不同维数下2,8,128,256,我们测试使用IN和ZP的默认BicycleGAN,以及具有类似设置的CBG。类似的结果朱等人[9],高维潜码可能潜在地编码更多的信息用于图像生成,代价是对于公共LCI模型进行采样非常困难。当潜在代码的维数足够高时,CBG表现出稳定的性能,如图12所示。其背后的原因是CBN提供了更稳定的分布范围约束。此外,CBG是增加潜码代码尺寸的低成本。表VII显示了与BicycleGAN和CBG相比的发电机参数数量。由于在公共LCI模型中复制潜在代码,潜在代码的卷积参数(方程3中的卷积矩阵V)是多余的。为了公平比较,我们在上面的实验中使用建议的潜在代码维度8[9]。

5)没有激励的CBN:为了进一步探索CBN在缺乏利用潜码的动机时的有效性,我们随机采样高斯噪声作为潜在代码注入到pix2pix[1],这可以被视为降解-BicyeleGAN。与[1]类似,我们将50%的丢失率应用于生成器(Convolution-Norm-Dropout-ReLU)以增加输出中的随机性。此外,我们也扩展潜在代码的维度以强化其效果。多样性结果显示在图13中,定性比较如图14所示。与[1],[9]中的结果类似,我们观察到向原始pix2pix注入噪声不会产生大的变化。即使我们应用了dropout并扩展了潜在代码的维度,这种情况也没有改善。当我们用pixG直接替换pix2pix中的生成器时,也会出现相同的结果。在应用辍学操作后,我们观察到通过在图像结构中引入随机性来改善多样性得分。通过扩展潜码的维数,我们发现输出样式的数量增加,并且多样性得分也得到改善。当我们将两种策略应用于CBG时,我们在基于pix2pix的模型中获得最佳的多样性性能。

6)CBBN和CBIN:在我们的设计标准中,我们假设多映射模型的关键统计量是特征映射的平均值。其他统计属性没有约束,例如方差。CBBN和CBIN之间的差异实际上是相同映射的特征方差。在CBBN之后,相同映射中的特征的统计方差不相同,因为它使用批次的方差。在CBIN之后,特征的统计方差归一化为1因为它使用实例的方差。有了使用潜在代码的动机,CBIN提供了更高的多样性分数CBBN因为它在训练阶段使用稳定的方差。当我们删除激励时,潜在的代码可以被视为对网络的噪声。在这些情况下,CBBN优于CBIN,因为小批量方差比提出的方法更稳定,在不同的应用中更通用和有效。

原文标题:Multi-MappingImage-to-ImageTranslationwithCentralBiasingNormalization返回搜狐,查看更多

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇