自然语言处理（NLP）—分词自然语言处理怎么实现

发表时间：2023-07-25 17:46:37

自然语言处理（NLP）—分词

训练分类器--文本分类这样一个分类任务，可以使用大部分通用分类模型朴素贝叶斯逻辑回归支持向量机（SVM）决策树

模型效果评估

评估模型效果应该在测试集上进行（而不是在训练集）

混淆矩阵（ConfusionMatrix）

常用的评估标准有查全率（Recall）正确预测为某个类别的文章数/这个类别的实际文章数*100%查准率（Precision）正确预测为某个类别的文章数/预测为这个类别的文章数*100%F1值，查全率和查准率的调和均值2xPrecisionxRecall/(Precision+Recall)FβF_etaFβ值： Fβ=(1+β2)∙(PrecisionxRecall)β2∙Precision+Recall， β>1~~F_eta=(1+eta^2)∙frac{(PrecisionxRecall)}{eta^2∙Precision+Recall}，~~~eta>1 Fβ=(1+β2)∙β2∙Precision+Recall(PrecisionxRecall)， β>1时，Recall更重要

模型持久化Python中，我们可以使用pickle，把分类器序列化成二进制文件在另一环境中加载这个文件，进行分类

NLP类模型的输入或输出格式及示例

模型介绍结合自有中文语料数据，PAI提供了以MultilingualT5（mT5）为基础，使用PEGASUS训练的新闻标题生成模型，详情请参见PEGASUS:Pre-trainingwithExtractedGap-sentencesforAbstractiveSummarization。该模型的输入为一段文本，您可以根据实际需要，自动输出新闻标题。

自然语言处理（NLP）—分词 自然语言处理怎么实现