机器学习的3个数据集

时间:2024-04-14 18:00:52

数据集处理步骤

  1. 查看该数据集对应的描述(摘要,详细描述,变量信息)
  2. 下载并用 Excel 等工具查看数据集(变量名,数量),根据目的看是否需要变量清洗
  3. 查看数据集对应的论文

SCADI.csv

摘要:

基于 ICF-CY 的第一个自我护理活动数据集

ICF-CY - 国际功能,残疾和健康分类(青少年版)

数据集描述:

该数据集来自 70 例身体残疾和运动残疾儿童病例,包含 206 条属性(依据 ICF-CY)

特别的,到今天为止 SCADI 数据集是唯一的一个 ML 研究人员使用的 《基于 ICF CY 自我护理问题分类》。

“类”领域是指存在身体和运动残疾儿童的自我保健问题,这些课程由职业治疗师决定。

最近从数据集中删除了儿童的姓名和社会安全号码。

两个文件已经被处理, SCADI.arffSCADI.CSV 分别用于 WEKA 和 MATLAB,或者类似的工具。

属性信息:

1:性别:性别(1=男性,0=女性)

2:年龄:年龄

3-205:基于 ICF-CY 的自我护理活动(1=病例具有此特征;0 = 其他)

206

分类(
分类1 = 关心身体部位问题;
分类2 = 如厕问题;
分类3 = 穿衣问题;
分类4 = 独立洗澡、自我护理和穿衣问题;
分类5 = 独立洗澡,自我护理,如厕和穿衣问题;
分类6 = 吃,喝,独立洗澡,自我护理,洗脸,梳妆,照顾他人,保护他人;
分类7 = 没有问题)

注意:

如数据集下载完毕后为 SCADI-Dataset.txt , 重命名修改为 SCADI-Dataset.rar
即可正常打开。
机器学习的3个数据集


SGEMM GPU kernel performance

摘要

运行时间为 两个 2048 x 2048 的矩阵相乘,使用 GPU OpenCL SGEMM 内核不同参数,使用库为 CLTune

CLTune ( A Generic Auto-Tuner for OpenCL Kernels ):一种通用的OpenCL内核自动调谐器

数据集描述:

该数据集测量矩阵矩阵乘积 A*B=C 的运行时间,

其中所有矩阵具有 2048×2048 的大小,使用具有 241600 个可能参数组合的可参数化的 SGEMM GPU 内核。

对于每个测试组合,执行 4 次运行,并将其结果报告为 4 个最后列。

所有时间都以 ms 为单位测量。

14 个参数,前 10 个是序数的,只能取 4 个不同的两个值的幂,而 4 个最后的变量是二进制的。在 1327104 个总参数组合中,只有 241600 个是可行的(由于各种内核约束)。该数据集包含所有这些可行组合的结果。

该实验运行在一台运行 Ubuntu 16.04 Linux 的桌面工作站上,英特尔内核 I5(3.5GHz)16GB RAMNvidia GeFig GTX 680 4GB GF580GTX-1.5 GB GPU。我们使用来自自动 OpenCL 内核优化库 'CalTun' 的“GEMMYFAST”内核。

属性信息:

独立变量:

1-2. MWG,NWG:每个矩阵 2D 在工作组级别的瓦片:{ 16, 32, 64,128 }(整数)

3 . KWG:工作组级别 2D 瓦片的内部维度:{ 16, 32 }(整数)

4-5. MDIMC,NDIMC:本地工作组大小:{ 8, 16, 32 }(整数)

6-7. MDEMA,NDIMB:局部内存形状:{ 8, 16, 32 }(整数)

8 . KWI:内核循环展开因子:{ 2, 8 }(整数)

9-10. VWM,VWN:每个矩阵向量宽度的加载和存储:{ 1, 2, 4,8 }(整数)

11-12. STRM,STRN:允许访问片外存储器:单线程:{ 0, 1 }(分类)

13-14.SA,SB:每 2D 工作组瓦片的矩阵手动缓存:{ 0, 1 }(分类)

输出:

15-18. Run1,Run2,Run3,Run4:使用相同参数的4个独立运行的毫秒执行时间:它们介于 13.253397.08 之间。


Student Performance

摘要

预测学生在中等教育(高中)的表现。

数据集描述:

这一数据接近两个葡萄牙语学校中学教育的学生成绩。

数据属性包括 学生成绩,人口统计学,社会和学校相关的特点,它是通过使用学校报告和问卷收集。

提供两个数据集的性能在两个不同的科目:数学(MAT)和葡萄牙语(POR)。在[科尔特斯和席尔瓦,2008 ]中,在 二进制/五级 分类和回归任务下对两个数据集进行建模。

重要注意事项:目标属性 G3 与属性 G2G1 具有很强的相关性。这是因为 G3 是最后一年级(在第三期发布),而 G1G2 对应于 第一和第二周期 等级。没有 G2G1 预测 G3 更困难,但是这样的预测更有用。

属性信息:

学生 MAT.CSV(数学课程)和学生 PAR.CSV(葡萄牙语课程)数据集的属性:

1 学生的学校(二进制:“GP”- Gabriel Pereira 或 “MS”- Mousinho da Silveira

2 学生的性别(二进制:“F”-女性 或 “M”-男性)

3 学生年龄(数字:1522

4学生的家庭地址类型(二进制:“U”-城市 或 “R”-农村)

5 家庭大小(二进制:’LE3‘-小于或等于 3 或 ‘GT3’- 大于3)

6 父母状态-父母是否同居(二进制:‘T’-同居 或 ‘A’-分开’)

7 母亲教育(数字:0 -无,1-小学教育(四年级),2-第五至第九年级,3-中等教育或 4 -“高等教育”)

8 父亲教育(数字:0 -无,1-小学教育(四年级),2-第五至第九年级,3-中等教育或 4 -“高等教育”)

9 妈妈的工作(名义上:“老师”,“健康护理”,“民事服务”(如行政或警察),“全职妈妈”或“其他”)

10 父亲的工作(名义上:“老师”,“健康护理”,“民事服务”(如行政或警察),“全职妈妈”或“其他”)

11 选择这所学校的理由(名义上:“离家近”,“学校声誉好”,“课程偏爱”或“其他”)

12 学生监护人(标称:‘母亲’、‘父亲’或‘他人’)

13 从家到学校的时间(数字:1 - 15 分钟,2 - 15 至 30 分钟,3 - 30 分钟至 1 小时,或 4 - 1小时)

14 每周学习时间(数字:1 - 2小时,2 - 2至5小时,3 - 5至10小时,或4 -10小时)

15 过去班级失败的数目(数值:n,1<n<=3,否则为4)

16 额外教育支持(二进制:是或否)

17 家庭教育支持(二进制:是或否)

18 课程科目(数学或葡萄牙语)的额外付费课程(二进制:是或否)

19 课外活动(二进制:是或否)

20 托儿所(二进制:是或否)

21 想接受高等教育(二进制:是或否)

22 家庭互联网接入(二进制:是或否)

23 早恋(二进制:是或否)

24 家庭关系的质量(数字:从 1 到 非常低 到 5 非常高)

25 课余*时间(数字:从 1 到 非常低 到 5 非常高)

26 与朋友外出(数字:从 1 到 非常低 到 5 非常高)

27 工作日饮酒量(数字:从 1 到 非常低 到 5 非常高)

28 周末饮酒量(数字:从 1 到 非常低 到 5 非常高)

29 当前健康状况(数字:从 1 到 非常低 到 5 非常高)

30 学校缺席人数(数字:0 至 93)


这些成绩与课程科目、数学或葡萄牙语有关:

31 G1 -第一期成绩(数字:0 至 20)

31 G2 -第二期成绩(数字:0 至 20)

32 G3-最终成绩(数字:0 到 20,输出目标)