数据挖掘实训周报week8

时间:2024-04-01 16:15:12

本周理论学习主要学了特征组合

特征交叉一种合成特征的方法,可以在多维特征数据集上,进行很好的非线性特征拟合。假设一个数据集有特征x1和x2,那么引入交叉特征值x3,使得:
x3=x1x2

那么最终的表达式为:
y=b+w1x1+w2x2+w3x3
使用One-Hot向量的方式进行特征交叉。这种方式一般适用于离散的情况,很少用于连续的数据集上。我们可以把特征交叉看成数据的逻辑与操作。

在地图的方面的处理中,需要用到特征交叉。下图的房价和经纬度中,单纯的给出经度或者纬度,都不能直接反应房价和地理位置的关系。更好的方式为经度和纬度交叉点,才能表示位置。

数据挖掘实训周报week8