论文插图,图表,AI自动生成!
0分享至机器之心报道编辑:杜伟、梓文如果论文中的图表不用绘制,对于研究者来说是不是一种便利呢?有人在这方面进行了探索,利用文本描述生成论文图表,结果还挺有模有样的呢!生成式AI已经风靡了人工智能社区,无论是个人还是企业,都开始热衷于创建相关的模态转换应用,比如文生图、文生视频、文生音乐等等。最近呢,来自ServiceNowResearch、LIVIA等科研机构的几位研究者尝试基于文本描述生成论文中的图表。为此,他们提出了一种FigGen的新方法,相关论文还被ICLR2023收录为了TinyPaper。论文地址:https://arxiv.org/pdf/2306.00800.pdf也许有人会问了,生成论文中的图表有什么难的呢?这样做对于科研又有哪些帮助呢?科研图表生成有助于以简洁易懂的方式传播研究结果,而自动生成图表可以为研究者带来很多优势,比如节省时间和精力,不用花大力气从头开始设计图表。此外设计出具有视觉吸引力且易理解的图表能使更多的人访问论文。然而生成图表也面临一些挑战,它需要表示框、箭头、文本等离散组件之间的复杂关系。与生成自然图像不同,论文图表中的概念可能有不同的表示形式,需要细粒度的理解,例如生成一个神经网络图会涉及到高方差的不适定问题。因此,本文研究者在一个论文图表对数据集上训练了一个生成式模型,捕获图表组件与论文中对应文本之间的关系。这就需要处理不同长度和高技术性文本描述、不同图表样式、图像长宽比以及文本渲染字体、大小和方向问题。在具体实现过程中,研究者受到了最近文本到图像成果的启发,利用扩散模型来生成图表,提出了一种从文本描述生成科研图表的潜在扩散模型——FigGen。这个扩散模型有哪些独到之处呢?我们接着往下看细节。模型与方法研究者从头开始训练了一个潜在扩散模型。首先学习一个图像自动编码器,用来将图像映射为压缩的潜在表示。图像编码器使用KL损失和OCR感知损失。调节所用的文本编码器在该扩散模型的训练中端到端进行学习。下表3为图像自动编码器架构的详细参数。然后,该扩散模型直接在潜在空间中进行交互,执行数据损坏的前向调度,同时学习利用时间和文本条件去噪U-Net来恢复该过程。至于数据集,研究者使用了Paper2Fig100k,它由论文中的图表文本对组成,包含了81,194个训练样本和21,259个验证样本。下图1为Paper2Fig100k测试集中使用文本描述生成的图表示例。模型细节首先是图像编码器。第一阶段,图像自动编码器学习一个从像素空间到压缩潜在表示的映射,使扩散模型训练更快。图像编码器还需要学习将潜在图像映射回像素空间,同时不丢失图表重要细节(如文本渲染质量)。为此,研究者定义了一个具有瓶颈的卷积编解码器,在因子f=8时对图像进行下采样。编码器经过训练可以最小化具有高斯分布的KL损失、VGG感知损失和OCR感知损失。其次是文本编码器。研究者发现通用文本编码器不太适合生成图表任务。因此他们定义了一个在扩散过程中从头开始训练的Berttransformer,其中使用大小为512的嵌入通道,这也是调节U-Net的跨注意力层的嵌入大小。研究者还探索了不同设置下(8、32和128)的transformer层数量的变化。最后是潜在扩散模型。下表2展示了U-Net的网络架构。研究者在感知上等效的图像潜在表示中执行扩散过程,其中该图像的输入大小被压缩到了64x64x4,使扩散模型更快。他们定义了1,000个扩散步骤和线性噪声调度。训练细节为了训练图像自动编码器,研究者使用了一个Adam优化器,它的有效批大小为4个样本、学习率为4.5e−6,期间使用了4个12GB的英伟达V100显卡。为了实现训练稳定性,他们在50k次迭代中warmup模型,而不使用判别器。对于训练潜在扩散模型,研究者也使用Adam优化器,它的有效批大小为32,学习率为1e−4。在Paper2Fig100k数据集上训练该模型时,他们用到了8块80GB的英伟达A100显卡。实验结果在生成过程中,研究者采用了具有200步的DDIM采样器,并且为每个模型生成了12,000个样本来计算FID,IS,KID以及OCR-SIM1。稳重使用无分类器指导(CFG)来测试超调节。下表1展示了不同文本编码器的结果。可见,大型文本编码器产生了最好的定性结果,并且可以通过增加CFG的规模来改进条件生成。虽然定性样本没有足够的质量来解决问题,但FigGen已经掌握了文本和图像之间的关系。下图2展示了调整无分类器指导(CFG)参数时生成的额外FigGen样本。研究者观察到增加CFG的规模(这在定量上也得到了体现)可以带来图像质量的改善。下图3展示了FigGen的更多生成示例。要注意样本之间长度的变化,以及文本描述的技术水平,这会密切影响到模型正确生成可理解图像的难度。不过研究者也承认,尽管现在这些生成的图表不能为论文作者提供实际帮助,但仍不失为一个有前景的探索方向。特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice:Thecontentabove(includingthepicturesandvideosifany)isuploadedandpostedbyauserofNetEaseHao,whichisasocialmediaplatformandonlyprovidesinformationstorageservices.
/阅读下一篇/返回网易首页下载网易新闻客户端