博舍

自然语言处理(NLP)—分词 自然语言处理怎么实现

自然语言处理(NLP)—分词

训练分类器--文本分类这样一个分类任务,可以使用大部分通用分类模型朴素贝叶斯逻辑回归支持向量机(SVM)决策树

模型效果评估

评估模型效果应该在测试集上进行(而不是在训练集)

混淆矩阵(ConfusionMatrix)

常用的评估标准有查全率(Recall)正确预测为某个类别的文章数/这个类别的实际文章数*100%查准率(Precision)正确预测为某个类别的文章数/预测为这个类别的文章数*100%F1值,查全率和查准率的调和均值2xPrecisionxRecall/(Precision+Recall)FβF_etaFβ​值:  Fβ=(1+β2)∙(PrecisionxRecall)β2∙Precision+Recall,   β>1~~F_eta=(1+eta^2)∙frac{(PrecisionxRecall)}{eta^2∙Precision+Recall},~~~eta>1  Fβ​=(1+β2)∙β2∙Precision+Recall(PrecisionxRecall)​,   β>1时,Recall更重要

模型持久化Python中,我们可以使用pickle,把分类器序列化成二进制文件在另一环境中加载这个文件,进行分类

NLP类模型的输入或输出格式及示例

模型介绍结合自有中文语料数据,PAI提供了以MultilingualT5(mT5)为基础,使用PEGASUS训练的新闻标题生成模型,详情请参见PEGASUS:Pre-trainingwithExtractedGap-sentencesforAbstractiveSummarization。该模型的输入为一段文本,您可以根据实际需要,自动输出新闻标题。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇