自然语言处理(NLP)—分词
训练分类器--文本分类这样一个分类任务,可以使用大部分通用分类模型朴素贝叶斯逻辑回归支持向量机(SVM)决策树
模型效果评估
评估模型效果应该在测试集上进行(而不是在训练集)
混淆矩阵(ConfusionMatrix)
常用的评估标准有查全率(Recall)正确预测为某个类别的文章数/这个类别的实际文章数*100%查准率(Precision)正确预测为某个类别的文章数/预测为这个类别的文章数*100%F1值,查全率和查准率的调和均值2xPrecisionxRecall/(Precision+Recall)FβF_etaFβ值: Fβ=(1+β2)∙(PrecisionxRecall)β2∙Precision+Recall, β>1~~F_eta=(1+eta^2)∙frac{(PrecisionxRecall)}{eta^2∙Precision+Recall},~~~eta>1 Fβ=(1+β2)∙β2∙Precision+Recall(PrecisionxRecall), β>1时,Recall更重要
模型持久化Python中,我们可以使用pickle,把分类器序列化成二进制文件在另一环境中加载这个文件,进行分类