探索分析结果图-tinyxml指南[中文]

时间:2021-06-14 22:53:14
【文件属性】:
文件名称:探索分析结果图-tinyxml指南[中文]
文件大小:6.46MB
文件格式:PDF
更新时间:2021-06-14 22:53:14
RapidMiner 图 20.4 探索分析结果图 表 20-4 数据探索分析结果表 属性名称 SUM_YR_1 SUM_YR_2 … SEG_KM_SUM AVG_DISCOUNT 空值记录数 551 138 … 0 0 大值 239560 234188 … 580717 1.5 小值 0 0 … 368 0 7.2.3 数据预处理 本案例主要采用数据规约、数据清洗与数据变换的预处理方法。 1. 数据清洗 通过数据探索分析,发现数据中存在缺失值,票价 小值为 0、折扣率 小值为 0、总 飞行公里数大于 0 的记录。由于原始数据量大,这类数据所占比例较小,对于问题影响不大, 因此对其进行丢弃处理。具体处理方法如下:  丢弃票价为空的记录。如图 20.5  丢弃票价为 0、平均折扣率不为 0、总飞行公里数大于 0 的记录,条件设置为 SUM_YR_1=0&&SUM_YR_2=0&&avg_discount != 0&&SEG_KM_SUM>0,如图 20.6 使用“Filter Examples”操作符对满足清洗条件的数据进行丢弃,处理方法为满足清 洗条件的一行数据全部丢弃,操作流程如图 20.7。

网友评论