Text to Image 文本生成图像定量评价指标分析笔记 Metric Value总结 IS、FID、R
目录一、介绍二、inceptionscore(IS)2.1、原理2.2、复现2.3、排行榜2.4、不足三、FID(FréchetInceptionDistance)3.1、原理3.2、复现3.3、排行榜3.4、不足四、R-precision4.1、原理4.2、复现4.3、排行榜4.4、不足五、VS相似度(Visual-SemanticSimilarity)5.1、原理5.2、排行榜5.3、不足六、其他七、总结一、介绍文本生成图像的评估也是一个很有挑战性的工作,一个良好的t2i模型评价指标不仅要评估生成的图像是否真实,而且要评估文本描述与生成图像之间的语义相关性。
度量指标目前常用的有8种,如下表,IS、FID、SceneFID是对图像质量的一个判断,R-prec、VS、SOA、Captioning是对图像和文本的相关性的一个判断:
度量指标图像质量图像多样性图像保真性文本相关性对象符合性数量对齐性稳健性可解释性自动化IS√√FID√√√SceneFID√√R-prec√√VS√√SOA√√√Captioning(√)√UserStudies√√√√√√√√√下面将总结几种常用的定量指标,分析其原理、应用和在其上取得的分数排行榜。
二、inceptionscore(IS)2.1、原理IS分数用到了KL散度和熵的数学知识,其主要原理在于计算p(y|x)和p(y)之间的散度:
IS=exp(ExKL(p(y∣x)∥p(y))mathrm{IS}=expleft(mathbb{E}_{x}mathrm{KL}(p(ymidx)|p(y)) ight.IS=exp(ExKL(p(y∣x)∥p(y))
不要被公式吓住,其实很简单,我们先从里面最核心的来看p(y∣x)p(y|x)p(y∣x):其中x表示一个生成的样本,y是预测的标签,简单来说:x表示模型生成的图片,y表示这个图片包含的主要物体,条件概率p(y∣x)p(y|x)p(y∣x)代表:给出一个图片,预测图片中包含的物体的概率,也就是有很高的把握对其进行正确分类,概率越大,越容易的知道其中包含什么物体。所以从一定程度上,p(y∣x)p(y|x)p(y∣x)代表了图片的质量,概率越高越好。p(y)p(y)p(y):y是预测的标签,p(y)表示边际分布,换句话说就是标签的分布情况,我们希望标签分布均匀,而不希望模型生成的都是某一类图片。这时候我们考虑的不是条件概率了,而是边缘概率p(y)。举个不恰当的例子来说,第一个模型生成出的图像的概率这样:p(喜鹊)=0.98,p(麻雀)=0.01,p(鸽子)=0.01,第二个模型生成图像的概率是p(喜鹊)=0.33,p(麻雀)=0.34,p(鸽子)=0.33。那么我们肯定认为第二个模型生成的多样性更好一点。故p(y)p(y)p(y)可以代表模型生成的多样性,我们希望p(y)分布均匀,最好达到p(y1=p(y2)=…=1/n,熵的概念:指信息熵,个人理解成混乱程度。当概率小的时候,则不确定性大,熵的值就会越大。我们希望p(y∣x)p(y|x)p(y∣x)概率越高越好,用熵来说,则其熵值越小越好,熵越小,不确定性越小,就能越好的对生成图像进行分类。我们希望各个p(y)p(y)p(y)概率越小越好,用熵来说,则其熵值越大越好,熵越大,不确定性越大(更加混乱),就能生成更多的类别。KL散度:通过3我们希望p(y|x)的熵越小越好,p(y)的熵越大越好,故此时引入KL散度,KL散度也叫相对熵,表示两者的离散状态,简单来说就是两个概率的信息熵的差值:p(y)p(y)p(y)的熵减去p(y∣x)p(y|x)p(y∣x)的熵。综上所述,IS分数越大越好。越大表示散度越大,即两者熵的差值越大。
2.2、复现IS分数通过使用预先训练好的Inception-v3网络,对生成的图像进行分类来计算。通常由大量样本(通常为30k或50k)的十次分割的平均值和方差(正态分布用)计算得出。
代码:https://github.com/hanzhanggit/StackGAN-inception-model
复现:IS指标复现文本生成图像IS分数定量实验全流程
2.3、排行榜在CUB数据集上的IS分数排行(部分):
排名模型IS分数(↑)1ManiGAN8.472RiFeGAN5.233DF-GAN4.864DM-GAN4.755MirrorGAN4.566AttnGAN4.367StackGAN++4.048StackGAN3.702.4、不足IS分数不能检测过度拟合,也不能测量类内变化。因此,如果一个网络能够记住训练集,或者每次只生成一个完美的图像,那么它将获得非常高的成功率
此外,它没有使用真实世界样本的统计数据,并将其与合成样本的统计数据进行比较.而是使用在ImageNet数据集上预训练的分类器,该数据集主要包含以一个对象为中心的图像。因此,它可能不太适合更复杂的数据集。
三、FID(FréchetInceptionDistance)3.1、原理FID分数用于根据预训练网络提取的特征,测量真实图像分布和生成图像分布之间的距离。
FID=∥μr−μg∥22+Tr(Σr+Σg−2(ΣrΣg)1/2)mathrm{FID}=left|oldsymbol{mu}_{r}-oldsymbol{mu}_{g} ight|_{2}^{2}+operatorname{Tr}left(oldsymbol{Sigma}_{oldsymbol{r}}+oldsymbol{Sigma}_{g}-2left(oldsymbol{Sigma}_{oldsymbol{r}}oldsymbol{Sigma}_{g} ight)^{1/2} ight)FID=∥∥μr−μg∥∥22+Tr(Σr+Σg−2(ΣrΣg)1/2)
物理意义:真实图像在空间中是服从一个分布的(假设为正态分布),而GAN生成的特征也是一个分布,GAN做的事情就是不断训练使这两个分布尽可能的相同。FID就是计算这两个分布直接的距离,使用的距离算法叫做Frechetdistance。(比较好的还有Wasserstein-2distance)假设你有基础的统计学知识,很简单就能明白两个正态分布只要均值和方差相同,则两个分布相同。而我们这里的图像是多维的分布,所以使用协方差矩阵衡量单个分布里两个维度之间的相关性,FID正是用均值和协方差矩阵来计算两个分布之间的距离。上式由两个部分组成,r表示真实图像,g表示生成图像。第一部分中μ表示分布的均值,第一部分为两个均值μ的差的平方。第二部分中,Σ表示协方差,Tr表示迹(矩阵对角线上的元素和),第二部分为协方差矩阵的和减去根号下协方差矩阵的乘积的迹。FID计算两个分布之间的距离,距离越小代表生成的分布越贴近于真实分布,故FID越小越好。
3.2、复现与IS类似,计算FID中我们也同样使用inceptionnetwork网络,由30k或50k的真实和生成的图像样本计算,使用预先训练的Inception-v3模型的最后一个池化层的激活来获得视觉特征。
代码:https://github.com/mseitzer/pytorch-fid
复现:FID指标复现踩坑避坑文本生成图像FID定量实验全流程
3.3、排行榜在COCO数据集上的FID分数排行(部分):
排名模型FID分数(↓)1Lafite8.122OFA10.53LightweightManiGAN12.394OP-GAN24.705ManiGAN25.086AttnGAN+VICTR29.267DMGAN+VICTR32.378StackGAN++81.593.4、不足FID的评价指标有很高的偏差,需要相同数量的样本进行公平比较。且其基于特征提取,也就是依赖于某些特征的出现或者不出现,因此无法描述这些特征的空间关系。例如用GAN去生成人脸,如果嘴巴长在眼睛上面,FID可能也会认为它是一张较好地生成结果。
另外其面临着与IS相同的问题,因为它依赖于在ImageNet上预先训练的分类器。不适合在内部差异较大的数据集上使用,无法区分过拟合。
四、R-precision4.1、原理R-precision通过对提取的图像和文本特征之间的检索结果进行排序,来衡量文本描述和生成的图像之间的视觉语义相似性。除了生成图像的真实文本描述外,还从数据集中随机抽取其他文本。然后,计算图像特征和每个文本描述的textembedding之间的余弦相似性,并按相似性递减的顺序对文本描述进行排序。如果生成图像的真实文本描述排在前r个内,则相关。
简单举个例子:假设r为3,有一百个文本,其中包括一个真实对应的文本和99个随机取出来的文本,将他们转为textembedding,然后分别与生成的图像计算余弦相似度,然后排序,如果真实文本生成的embedding排在前3位,则认为该图像与文本有相关性。
R-precision表示的是排序后真实文本出现在前r个的概率,越大说明图像与真实文本描述越相关,R-precision越大越好。
4.2、复现Github:https://github.com/maincarry/R-Precision复现:R分数指标复现踩坑避坑文本生成图像R_Precision定量实验全流程
4.3、排行榜在CUB数据集上的R分数排行(部分)
排名模型R-prec(↑)1DMGAN76.58%2ControllGAN69.33%3AttnGAN67.82%4MirrorGAN57.67%R-precision的测量数据较少,有些数据还有争议,待各位补充。
4.4、不足R-prec在COCO图像上通常会失败,因为在COCO图像中,可能会将高度相似性分配给提到全局背景色的错误标文本描述或出现在中间的对象。
五、VS相似度(Visual-SemanticSimilarity)5.1、原理VS相似度通过一个经过训练的视觉语义嵌入模型计算图像和文本之间的距离来衡量合成图像和文本之间的对齐。具体来说,学习两个映射函数,分别将图像和文本映射到公共表示空间。然后通过下面的公式,比较其相似性:
VS=ft(t)⋅fx(x)∥ft(t)∥2⋅∥fx(x)∥2mathrm{VS}=frac{f_{t}(t)cdotf_{x}(x)}{left|f_{t}(t) ight|_{2}cdotleft|f_{x}(x) ight|_{2}}VS=∥ft(t)∥2⋅∥fx(x)∥2ft(t)⋅fx(x)
ftf_tft表示的是文本编码器fxf_xfx表示的是图像编码器VS计算编码后的文本和图像的余弦值相似度,从而判断文本与图像是否相关。VS相似度越高越好。VS相似度表示文本与图像的相似程度,越高表示越相似。
5.2、排行榜在CUB数据集上的VS相似度排行(部分)
排名模型VS相似度(↑)1SEGAN30.22PPAN29.8±14.63StackGAN22.8±16.24AttnGAN22.5VS相似度的测量数据同样较少,且浮动较大。
5.3、不足VS相似度最大的缺点就是即使对于真实图像,标准偏差也非常高。因此,它不能提供一种非常精确的评估模型性能的方法。其还没有被社区广泛采用,报告的结果也很少。
六、其他其他定量指标还有:CaptioningMetrics、SemanticObjectAccuracy(SOA)、LPIPS等等
七、总结很明显,t2i的评估仍然是一个非常困难的问题。要评价一个好的T2I模型,应该考虑其是否既能生成高质量的图像,又能生成与输入描述一致的图像。
在图像质量方面需要考虑图像:a)高图像保真度和多样性的模型,b)解纠缠表示,c)明确定义的界限,d)对小变换的不变性,e)与人类判断和排序高度一致,f)低样本和计算复杂度…等等
在图像文本对齐方面,由于许多不同的标题可以正确描述描绘复杂场景的图像,暂时没有很好的定量评价标准,很难定义图像与输入描述对齐的确切含义。一个良好的图像文本对齐评估应包括以下指标:a)所提到的物体是否被正确描绘和易于识别,b)生成的物体的数量和位置是否与文本相符,c)生成的图像是否能够被文本正确描述,d)是否对输入描述中的微小变化具有鲁棒性(比如更换颜色)…等等
觉得本文不错的话,还请点赞、评论、关注,这将给我带来很大的动力。有其他疑问请在评论区留言,你提出的问题将对作者和其他人提供很大帮助。
文本生成概述
引言文本生成是自然语言处理中一个重要的研究领域,具有广阔的应用前景。国内外已经有诸如AutomatedInsights、NarrativeScience以及“小南”机器人和“小明”机器人等文本生成系统投入使用。这些系统根据格式化数据或自然语言文本生成新闻、财报或者其他解释性文本。例如,AutomatedInsights的WordSmith技术已经被美联社等机构使用,帮助美联社报道大学橄榄球赛事、公司财报等新闻。这使得美联社不仅新闻更新速度更快,而且在人力资源不变的情况下扩大了其在公司财报方面报道的覆盖面。
本文主要介绍了文本生成的定义、任务、评价指标和实现方法。重点介绍了目前正在成为文本生成技术主流的数据驱动方法。本文最后对文本生成技术的发展做了简单的展望。
1.文本生成的定义Reiter等人[1]将自然语言生成系统定义为接受非语言形式的信息作为输入,生成可读的文字表述。数据到文本的生成适用于这个定义。Wan等人[2]将这个概念拓展为包括了文本到文本的生成、数据到文本的生成以及图像到文本的生成的文本生成技术。
2.文本生成任务按照输入数据的区别,可以将文本生成任务大致分为以下三类:1)文本到文本的生成;2)数据到文本的生成;3)图像到文本的生成。
1)文本到文本的生成又可根据不同的任务分为(包括但不限于):文本摘要、古诗生成、文本复述等。文本摘要又可以分为抽取式摘要和生成式摘要。抽取式摘要通常包含信息抽取和规划等主要步骤。近期,在这方面有许多有趣的工作:Hu[3]在为论文自动生成相关工作部分文本的任务上使用主题模型PLSA将句子按照主题进行聚类,使用SVR(SupportVectorRegression)计算句子的相似度,最后使用线性规划生成相关工作文本。Wang[4]在基于短语级别为学术论文生成演示文件的研究中采用了四个步骤。首先从论文中抽取名词短语、动词短语作为候选短语,利用人工设计的特征和基于随机森林的分类器决定短语是否应出现在演示文件中,再训练一个基于随机森林的分类器判断两个短语是否存在一级、二级标题的关系,最后使用贪心策略选择句子构成一个演示文件。Zhang[5]在根据体育赛事直播文字生成赛事报道的任务上,主要采用了LearningtoRank的方法结合人工设计的特征模版对句子进行打分,进而采用行列式点过程(DPP,DeterminantalPointProcess)进行句子选择。最近ACL2017上发表了多篇生成式摘要的论文。如See等人提出了解决生成事实性错误文本和重复性文本问题的方法[6],Zhou等人加入选择门网络(selectivegatenetwork)进行摘要生成[7]。古诗生成方面,Zhang等人[8]使用循环神经网络进行生成,Wang等人[9]将古诗生成划分为规划模型和生成模型两部份。Zhang等人[10]在Seq2Seq模型的基础上加入记忆模块。文本复述方面,Quirk等人[11]使用机器翻译的方法生成复述文本,Max等人 [12]采用基于枢轴(pivot)的复述生成方法,以另一种语言作为中间媒介,将源语言翻译成另一种语言后再翻译为原来的语言。
2)结构化数据生成文本的任务上,Reiter等人[13]将数据到文本的系统分为了信号处理(视输入数据类型可选)、数据分析、文档规划和文本实现四个步骤。Mei等人[14]基于encoder-decoder模型加入了aligner选择重要信息,基于深度学习提出了一个端到端的根据数据生成文本的模型。
3)图像到文本的生成方面也有不同的任务,如image-caption、故事生成、基于图像的问答等。在为图像生成解释性文本(image-caption)的任务上,Vinyals等人[15]使用类似encoder-decoder的模型进行生成。Xu等人[16]则进一步加入Attention机制。Huang等人[17]提出针对图片序列生成故事的任务,并且提供了单张图片的描述性文本、单张图片的故事以及图片序列的故事三个层级的数据集。在第三个数据集上,他们拓展之前的模型并加入一些技巧提供了该任务的一些baseline。并通过对自动化评价指标以及人工评价相关度的衡量,确定使用METEOR作为自动化评价指标。基于图像的问答任务上,Shih等人[18]提出了使用基于Attention机制的模型用VGGnet编码图片,用词向量求均值表示问题,最后经过两层网络生成答案、Wu等人[19]提出了整合image-caption模型和外部知识库等生成答案。
3.文本生成方法文本生成主要有基于规则、基于规划(Planning-based)以及数据驱动(data-driven)的方法。[20]本文重点介绍数据驱动的方法。
3.1基于语言模型的自然语言生成
基于马尔可夫的语言模型在数据驱动的自然语言生成中有着重要的应用。它利用数据和文字间的对齐语料,主要采用两个步骤:内容规划和内容实现为数据生成对应的文本。Oh等人[21]在搭建面向旅行领域的对话系统时,在内容规划部分使用bigram作特征根据近期的对话历史,选取待生成文本中需要出现的属性,内容实现部分使用n-gram语言模型生成对话。Ratnaparkhi等人[22]经过实验对比发现在语言模型上加入依存语法关系有助于改善生成效果。Angeli等人[23]则将文本生成的过程分为三种决策(以生成天气报道为例):1)宏观的内容选择,如选择温度等方面进行报道。2)微观内容选择,如选择最低温度或者最高温度进行报道。3)模版选择。这三个决策步骤交替进行。每次决策的时候会考虑到历史决策信息,这有助于处理需要考虑长距离的依赖关系的情况,如语义连贯性。
3.2使用深度学习方法的自然语言生成
在文本到文本的生成方面,Zhang等人[8]使用RNN进行中文古诗生成,用户输入关键词后首先拓展为短语,并用来生成诗的第一行。接下来的每一行结合当时所有已生成的诗句进行生成。Wang[9]则将古诗生成分为规划模型和生成模型两部份。规划模型部分得到用户的输入,在使用TextRank进行关键词抽取和使用RNN语言模型和基于知识库的方法进行拓展后,获得一个主题词序列,作为写作大纲,每一个主题词在下一个部分生成一行诗。生成模型部分基于encoder-decoder模型,增加一个encoder为主题词获得一个向量表示。另一个encoder编码已经生成的句子。使用attention-based的模型,decoder综合主题词和已经生成的句子,生成下一句的内容。通过这两个模型,在更好的控制每一行诗的主题的同时保持诗词的流畅性。最近,在ACL2017上发表了多篇生成式摘要的论文。如See等人[6]为了解决生成一些与事实不符的内容,在标准的基于attention的Seq2Seq模型上结合PointerNetwork,使其既可以生成词,也可以从原文中直接把一些词放入生成的文本中。为了解决重复的问题,加入coverage模型。Zhou等人[7]则通过在encoder和decoder之间加入一个选择门网络(selectivegatenetwork)作为输入句子的第二层表示,提高编码的有效性,降低decoder的负担。
在数据到文本的生成方面,Mei[14]提出了encoder-aligner-decoder的端到端模型。主要特点是在标准的encoder和进行了改进的decoder之间加入用于选择将要描述的重要信息的aligner。它对每条记录生成的权重分为两个部分。第一部分是针对每条记录的向量表示单独计算一个权重。第二部分是在decoder的第t步时,根据decoder已经生成的内容及对应记录的向量表示计算权重。在两个数据集上取得比较好的效果提升。它的优势在于同步训练内容选择和生成部分且不需要针对任务人工设置特征,普适性较好。
在图像到文本的生成方面,Vinyals[15]使用Seq2Seq的模型,首先利用深层卷积神经网络DCNN对图像建模,然后由一个LSTM网络进行解码生成最终的文本。与传统的机器学习方法相比,无需进行图像和文本中词的对齐、调整顺序等步骤。Xu[16]则进一步提出利用Attention机制来加强词语和图像块之间的对齐,在生成文字的时候,模拟人看东西时关注点逐渐转移的过程,以生成更符合人习惯的文本。
4.模型评价
Noevaluation,noresearch。如何对生成的文本进行评价也是文本生成研究中重要的一环。Gkatzia[24]总结2005年到2014年间的常用的针对文本生成的评价方法,将其分为内在评价和外在评价方法。其中内在评价关注文本的正确性、流畅度和易理解性。常见的内在评价方法又可分为两类:1)采用BLEU、NIST和ROUGE等进行自动化评价,评估生成文本和参考文本间相似度来衡量生成质量。2)通过人工评价,从有用性等对文本进行打分。外在评价则关注生成文本在实际应用中的可用性。根据他们的分析,内在评价方法是最为流行的评价方法。2012-2015年间发表的论文超半数使用自动化评价指标进行评价,但由于它需要有大量的对齐语料,且对于对齐语料的质量很敏感,所以在使用自动化评价指标的同时,研究者常常还会同时使用其它的评价方法,如直观且易于操作(与外在评价方法相比)的人工评价生成文本的正确性、流畅性方法。
5.展望文本生成技术,尤其是数据到文本的生成已经在商业领域获得应用,近期,国内也出现了许多投入使用的利用文本生成技术自动生成新闻的系统。文本生成技术的应用前景广阔,具有巨大的市场需求。相信随着机器学习技术的进步、新的公开数据集的发布、市场需求的推动以及计算性能的飞速提高,文本生成领域的研究将取得更大的发展与突破。
作者:龚恒 哈工大SCIR在读本科生
参考文献
[1]ReiterE,DaleR,FengZ.Buildingnaturallanguagegenerationsystems[M].Cambridge:Cambridgeuniversitypress,2000.
[2]万小军,冯岩松,孙薇薇.文本自动生成研究进展与趋势.CCF中文信息技术专业委员会
[3]HuY,WanX.AutomaticGenerationofRelatedWorkSectionsinScientificPapers:AnOptimizationApproach[C]//EMNLP.2014:1624-1633.
[4]WangS,WanX,DuS.Phrase-BasedPresentationSlidesGenerationforAcademicPapers[C]//AAAI.2017.
[5]ZhangJ,YaoJ,WanX.Towardconstructingsportsnewsfromlivetextcommentary[C]//ProceedingsofACL.2016.
[6]AbigailSee,PeterJ.LiuandChristopherD.Manning.GetToThePoint:SummarizationwithPointer-GeneratorNetworks[C]//ProceedingsofACL.2017
[7]QingyuZhou,NanYang,FuruWeiandMingZhou.SelectiveEncodingforAbstractiveSentenceSummarization[C]//ProceedingsofACL.2017
[8]Zhang,X.,&Lapata,M.ChinesePoetryGenerationwithRecurrentNeuralNetworks[C]//Proc.EMNLP’14,pp.670–680.
[9]WangZ,HeW,WuH,etal.Chinesepoetrygenerationwithplanningbasedneuralnetwork[C]//COLING.2016.
[10]JiyuanZhang,YangFeng,DongWang,YangWang,AndrewAbel,ShiyueZhangandAndiZhang.FlexibleandCreativeChinesePoetryGenerationUsingNeuralMemory[C]//ProceedingsofACL.2017
[11]QuirkC,BrockettC,DolanWB.MonolingualMachineTranslationforParaphraseGeneration[C]//EMNLP.2004:142-149.
[12]MaxA.Sub-sententialparaphrasingbycontextualpivottranslation[C]//Proceedingsofthe2009WorkshoponAppliedTextualInference.AssociationforComputationalLinguistics,2009:18-26.
[13]ReiterE.Anarchitecturefordata-to-textsystems[C]//ProceedingsoftheEleventhEuropeanWorkshoponNaturalLanguageGeneration.AssociationforComputationalLinguistics,2007:97-104.
[14]MeiH,BansalM,WalterMR.Whattotalkaboutandhow?selectivegenerationusinglstmswithcoarse-to-finealignment.arXivpreprintarXiv:1509.00838,2015.
[15]VinyalsO,ToshevA,BengioS,etal.Showandtell:Aneuralimagecaptiongenerator[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.2015:3156-3164.
[16]XuK,BaJ,KirosR,etal.Show,attendandtell:Neuralimagecaptiongenerationwithvisualattention[C]//InternationalConferenceonMachineLearning.2015:2048-2057.
[17]HuangTHK,FerraroF,MostafazadehN,etal.Visualstorytelling[C]//NAACLHLT.2016.
[18]ShihKJ,SinghS,HoiemD.Wheretolook:Focusregionsforvisualquestionanswering[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.2016:4613-4621.
[19]WuQ,WangP,ShenC,etal.Askmeanything:Free-formvisualquestionansweringbasedonknowledgefromexternalsources[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.2016:4622-4630.
[20]GattA,KrahmerE.SurveyoftheStateoftheArtinNaturalLanguageGeneration:Coretasks,applicationsandevaluation.arXivpreprintarXiv:1703.09902,2017.
[21]Oh,A.H.,&Rudnicky,A.I.Stochasticnaturallanguagegenerationforspokendialogsystems[C]//ComputerSpeechandLanguage.2002:16(3-4),387–407.
[22]Ratnaparkhi.A.Trainablemethodsforsurfacenaturallanguagegeneration.[C]//InProc.NAACL’00,2000:pp.194–201.
[23]Angeli,G.,Liang,P.,&Klein,D.ASimpleDomain-IndependentProbabilisticApproachtoGeneration[C]//InProc.EMNLP’10,2010:pp.502–512.
[24]GkatziaD,MahamoodS.ASnapshotofNLGEvaluationPractices2005-2014[C]//ProceedingsofENLG.2015.
本文来源于哈工大SCIR
原文链接点击即可跳转