【文件属性】:
文件名称:text-classification-system:使用scikit-learn进行文本分类
文件大小:126.47MB
文件格式:ZIP
更新时间:2021-03-11 21:51:22
系统开源
文本分类
文本分类,使用搜狗文本分类语料库
1.主要步骤
文本分词处理
特征选择
特征权重计算
文本特征向量表示
训练模型并测试:kNN,NB,SVM
使用爬虫抓取新闻并测试
2.数据集
英文文本
数据集使用著名的新闻数据集,你可以从下载。
数据加载使用来加载数据集。
中文文本
使用的版数据其中的一部分。
3.运行环境
python 3.4
scikit学习
麻木
界坝
4.示例
运行HTTP服务器
:页面
今日头条上的新闻
测试结果