【NLP 自然语言处理】自然语言处理技术难点和挑战
一、**NLP技术对标注数据依赖性较高,难以在标注数据稀缺的任务、语言或领域内发挥作用。**此前小米首席NLP科学家王斌在接受InfoQ采访时也曾表示,获得大规模的高质量标注数据永远是个难题。当前主流方法的效果取决于标注数据的规模和质量。为解决这一问题,可以采用基于大规模无监督数据的预训练模型,或者尝试半监督或无监督的方法,包括零样本学习(Zero-ShotLearning)或小样本学习(Few-ShotLearning)方法。
二、第二是轻量级优质模型问题。当前的主流模型需要消耗大量资源进行训练,这种趋势目前看来有增无减。如何得到轻量级的优质模型是一个挑战性问题。可能的解决方法对现有模型的裁剪甚至另辟新路提出新的模型。
三、另一方面的挑战是长期性的,即如何让机器像人一样掌握自然语言。这是一个很复杂的综合问题,因为语言与认知是相关的。人类用语言表达自己的思维和逻辑,一个人的语言背后是一个智能个体的思维和知识体系。如果希望机器能够理解自然语言,那么它就需要拥有思维能力和自己的知识体系,在这一点上,可以说自然语言处理技术涉及到了人工智能的终极命题。
四、缺乏独立的运用场景。在产品化方面,自然语言处理的对应场景多样性比较高,且NLP相关产品中用户的交互体验直接与技术相关,因此如何在目前的技术水平下设计合适的产品是非常重要的命题。潘晟锋坦言,这一方面没有捷径可以走,必须深入到不同的场景中去,要对场景做充分的调研与了解,才能更好地将技术与场景结合相对而言,NLP技术一直在工业界平稳落地,不论是搜索、推荐、信息流、互联网金融还是社交网络,NLP技术生态评论都在其中起着十分重要的作用,正是因为应用已经非常广,加上NLP技术本身处于底层支撑地位,给人的感官不明显,所以给人造成了落地、商业化进展很慢的假象。成熟的落地场景指的是场景清晰、目标明确且单一、大众认知普及、理解一致,且具有很好的同质性以便让技术具有很高的可扩展性。对于NLP来说,目前主要的制约还是在于场景非常分散且复杂,自然语言的场景通常很难同时具备上面所说的几个性质。
五、NLP应用场景:目前NLP主要在推荐系统、翻译系统、语音搜索等应用场景上,多起到辅助实际业务的作用。以电商场景为例,商品检索和推荐等环节都有NLP技术的使用。
六、在应用方面,文本生成技术值得期待。随着文本生成技术的发展,在未来我们也许会看到生成技术被越来越多地用到现有的一些场景中来,同时可能也会出现一些以生成技术为支点的新场景出现,内容创作的想象空间很大。据李浩然介绍,京东AI已将文本生成技术落地到商品营销文案自动生成场景中,其在生成效率和营销效果上超过人类水平。
七、**自然语言是人工智能领域最难、最重要的技术。**一些大型的模型已经有非常高的类智能的表现。这些技术的运用会越来越广泛,也许在几年内我们就会看到NLP技术被用到越来越多的场景中去。
NLP类模型的输入或输出格式及示例
模型介绍结合自有中文语料数据,PAI提供了以MultilingualT5(mT5)为基础,使用PEGASUS训练的新闻标题生成模型,详情请参见PEGASUS:Pre-trainingwithExtractedGap-sentencesforAbstractiveSummarization。该模型的输入为一段文本,您可以根据实际需要,自动输出新闻标题。自然语言处理6
系列文章,欢迎阅读NLP预训练模型1–综述NLP预训练模型2–BERT详解和源码分析Transformer家族1–Transformer详解和源码分析
自然语言处理1–分词自然语言处理2–jieba分词用法及原理自然语言处理3–词性标注自然语言处理4–句法分析自然语言处理5–词向量自然语言处理6–情感分析
1概述情感分析是自然语言处理中常见的场景,比如淘宝商品评价,饿了么外卖评价等,对于指导产品