【文件属性】:
文件名称:Data-Analytics-project-On-Census-Data
文件大小:451KB
文件格式:ZIP
更新时间:2021-05-01 05:38:38
R
数据分析项目普查数据
这是在人口普查数据集上完成的数据分析项目
问题陈述:分析人口普查数据并预测收入是否超过每年5万美元。 遵循涉及以下内容的端到端建模过程:
执行探索性数据分析并建立数据假设。
处理异常值并处理丢失的数据。
使用数据的分层随机抽样(SRS)创建训练和验证数据集。
在训练集上拟合分类模型(逻辑回归/决策树)
执行模型验证(ROC曲线,混淆矩阵)
冻结最终模型。
属性说明:
属性清单:
收入:> 5万,<= 5万年龄:连续。
工作类别:私人,自营非公司,自营公司,联邦*,地方*,州*,无薪,从未工作过。
fnlwgt:连续。
教育程度:学士,部分大学,11年级,高中毕业生,教授学校,Assoc-acdm,Assoc-voc,9、7th8th,12th,硕士,1至4、10,博士学位,5至6,学前班。
education-num:连续的
【文件预览】:
Data-Analytics-project-On-Census-Data-master
----boxplot_of_income_and_hours.per.week.png(4KB)
----roc_curve for_logistic_regression.png(4KB)
----boxplot_of_income_and_age.png(3KB)
----boxplot_of_income_and_education.num.png(3KB)
----roc_curve_For_decision_tree.png(4KB)
----roc_curve_For_random_forest.png(4KB)
----README.md(2KB)
----boxplot_of_income_and_fnlwgt.png(3KB)
----project.R(6KB)
----CensusData.csv(3.67MB)