Sentiment-Analysis-with-Random-Forests

时间:2024-07-14 17:14:19
【文件属性】:

文件名称:Sentiment-Analysis-with-Random-Forests

文件大小:1.76MB

文件格式:ZIP

更新时间:2024-07-14 17:14:19

Python

带有随机森林的情绪分析 这是使用随机森林的情感分析的实现。 我使用了 Kaggle 比赛中的烂番茄数据集。 ( )。 该数据包含 156000 条简短的电影评论,标记为评分 1-5。 由于它是一个大数据集,该算法需要一些时间。 我建议使用命令行创建较小的数据集: head -100 train.tsv>train_small.csv 运行“main.py”文件时,会在“mydata”目录中创建“train”和“test”目录。 “train”和“test”目录将包含用于为机器学习算法创建特征矩阵的 json 文件。 执行“main.py”还将创建“my_kaggle_submission.csv”,其中包含随机森林分类器的输出。 最好的交叉验证得分是每棵树 5 个特征和 500 棵树(得分 = 62%)。 该模型使用的主要特征是对应于 5 个评级类别的 tfidf 分数。 每个单词


【文件预览】:
Sentiment-Analysis-with-Random-Forests-master
----README.md(2KB)
----myData()
--------test.tsv(3.21MB)
--------train.tsv(8.09MB)
----main.py(1KB)
----function_tree_forest.py(22KB)
----create_feature_files.py(850B)
----predict_testSet.py(2KB)

网友评论