数学基础-特征工程

时间:2024-03-29 16:06:20

特征对于模型准确度是直观重要的,有的时候数据即特征,有的时候特征是从数据中衍生出来的,所以说数据预处理和特征工程之间存在重合。特征工程包含的内容如下图所示。
数学基础-特征工程

特征分类

根据不同的分类方法,可以将特征分为(1)Low level特征和High level特征。(2)稳定特征与动态特征。(3)二值特征、连续特征、枚举特征。

Low level特征主要是原始特征,不需要或者需要非常少的人工处理和干预,例如文本特征中的词向量特征,图像特征中的像素点,用户id,商品id等。High level特征是经过较复杂的处理,通过时域变换、频域变换、非线性映射、模型映射等方式产生的特征。

特征稳定性衡量的特征变化的频率,静态特征是更新变化不频繁的特征,动态特征是更新变化比较频繁的特征,特征的稳定性主要用于设计特征的存储策略。

根据特征的取值可以将特征分为二值特征、连续特征、枚举特征。这个分可以参考我的数据预处理的文章 数学基础-数据预处理

特征构造

特征构造是对原始数据进行加工,衍生出新的特征的过程,特征构造的主要方法包括时域变换、频域变换、非线性变换、模型映射等。

时域变换
对原始数据进行时域变换可以获得时域特征,时域特征包括均值、方差、最大值、最小值、分位数、峰度、偏度、小于第一四分位数据所有数据平方和、大于第三四分位数据所有数据平方和等。

频域变换
对原始数据进行频域变换可以获得频域特征,将数据从时域变换到频域的方法包括FFT、小波变换等,可以进一步对频域信号进行特征提取,如频域峰值、频段值域分布、频带宽度、谱能量等。

核变换
核变换主要对数据进行非线性变换,将数据映射到新的特征空间。

模型映射
模型映射是基于预先建立的模型,对数据进行变换,比如评分模型、风险评估模型等。

特征选择

特征选择的方法包括降维、特征有效性分析、算法自动选择

降维
降维主要是通过去除变量间的自相关,来减少输入特征的维度,降维方法参考 数学基础-数据预处理-降维-PCA & SVD

特征有效性分析
对特征的有效性进行分析,得到各个特征的特征权重,根据是否与模型有关可以分为与模型相关特征权重和与模型无关特征权重。与模型相关特征权重使用所有的特征数据训练出来模型,看在模型中各个特征的权重,由于需要训练出模型,模型相关的权重与此次学习所用的模型比较相关。例如线性模型中,特征的权重系数等。与模型无关特征权重主要分析特征与目标的相关性,分析方法包括:相关系数、距离、信息增益、交叉熵等

算法自动选择
算法自动选择是所采用的算法具有自动选择特征功能,这类模型包括深度学习、正则化、决策树。

特征监控

特征监控主要是对特征的质量和有效性进行监控,以即使发现随着数据增加特征失效的问题,同时可以通过特征的异常检测出数据的异常。

特征工程其他参考
Discover Feature Engineering
机器学习中的数据清洗与特征处理综述

本文内容出自以下链接,写博客的目的是学习的总结和知识的共享,如有侵权,请与我联系,我将尽快处理
https://machinelearningmastery.com/discover-feature-engineering-how-to-engineer-features-and-how-to-get-good-at-it/
https://tech.meituan.com/machinelearning-data-feature-process.html