文件名称:699finalproject
文件大小:247KB
文件格式:ZIP
更新时间:2024-04-04 10:50:58
JupyterNotebook
699最终项目 您好,我叫Matthew Hui,我是旧金山大学目前在读数据科学的硕士研究生。 该存储库适用于我的机器学习实验室课程,我们在其中探讨了scikit-learn的各种功能以及如何在数据科学生命周期中使用它。 您可以在找到的链接 您可以在找到指向我的代码的链接,也可以从存储库中下载它。 数据 该数据集包含有关报名参加公司数据科学课程的各种候选人的信息。 该公司正试图找出这些候选人中的哪些人选修了学习新技能的课程,而哪些人正在寻找新的工作。 数据集包含约19,000行和14列。 特征工程 数据集包含缺失值,因此我使用了一个简单的脉冲(连续变量的估计中位数,离散变量的估计中位数为“未知”)。 我还对数据使用了序数编码和一种热编码。 演算法 我使用随机搜索执行了超参数搜索。 我尝试调整的超参数是: 判据:这两个判据是两个不同的函数,这些函数确定拆分的好坏。 最大深度:限制每棵树
【文件预览】:
699finalproject-main
----notebook.ipynb(36KB)
----README.md(2KB)
----aug_train.csv(1.87MB)