TextClassification:使用Python进行文本分类的简单实践

时间:2021-07-03 09:06:40
【文件属性】:
文件名称:TextClassification:使用Python进行文本分类的简单实践
文件大小:1.16MB
文件格式:ZIP
更新时间:2021-07-03 09:06:40
Python 文本分类 使用Python进行文本分类的简单实践 文件 内容 罗基奥.py 使用 Rocchio 算法的文本分类。 每个文档都在一个向量空间中表示。 在训练阶段,找到每类文档的质心。 在测试阶段,计算测试文档到每个质心的距离,并将文档分配到最近的质心类。 天真的eBayes.py 使用朴素贝叶斯算法的文本分类。 每个文档在一个向量空间中表示。 在训练阶段,学习字典每个术语的类先验和类条件概率。 在测试阶段,文档被分配给给定测试文档具有最大后验概率的类。 这是一个 IPython 笔记本,展示了使用 scikits-learn 机器学习库的完整但简单的文本分类管道。 管道从文本清理和标记化开始,然后将每个文档投影到一个向量空间中。 Tfidf 加权用于对向量进行归一化。 然后测试一些分类器; 使用它们的默认参数。 最后,在蛮力参数网格搜索上使用 10 倍交叉验证,找到了一些分类器的最

网友评论