机器学习实战基础（十三）：sklearn中的数据预处理和特征工程（六）特征选择 feature_selection 简介

当数据预处理完成后，我们就要开始进行特征工程了。

在做特征选择之前，有三件非常重要的事：跟数据提供者开会！跟数据提供者开会！跟数据提供者开会！
一定要抓住给你提供数据的人，尤其是理解业务和数据含义的人，跟他们聊一段时间。技术能够让模型起飞，前提是你和业务人员一样理解数据。
所以特征选择的第一步，其实是根据我们的目标，用业务常识来选择特征。来看完整版泰坦尼克号数据中的这些特征
机器学习实战基础（十三）：sklearn中的数据预处理和特征工程（六）特征选择 feature_selection 简介

其中是否存活是我们的标签。很明显，以判断“是否存活”为目的，票号，登船的舱门，乘客编号明显是无关特征，可以直接删除。姓名，舱位等级，船舱编号，也基本可以判断是相关性比较低的特征。
性别，年龄，船上的亲人数量，这些应该是相关性比较高的特征。
所以，特征工程的第一步是：理解业务。
当然了，在真正的数据应用领域，比如金融，医疗，电商，我们的数据不可能像泰坦尼克号数据的特征这样少，这样明显，那如果遇见极端情况，我们无法依赖对业务的理解来选择特征，该怎么办呢？我们有四种方法可以用来选择特征：过滤法，嵌入法，包装法，和降维算法。

#导入数据，让我们使用digit recognizor数据来一展身手

import pandas as pd

data = pd.read_csv(r"C:\work\learnbetter\micro-class\week 3 Preprocessing\digit

recognizor.csv")

X = data.iloc[:,1:]

y = data.iloc[:,0]

X.shape

"""

这个数据量相对夸张，如果使用支持向量机和神经网络，很可能会直接跑不出来。使用KNN跑一次大概需要半个小时。

用这个数据举例，能更够体现特征工程的重要性。

"""

秒客网

机器学习实战基础（十三）：sklearn中的数据预处理和特征工程（六）特征选择 feature_selection 简介

相关文章