Feature hashing相关 - 1

时间:2021-12-16 14:31:14

考虑典型的文本分类,一个经典的方法就是

 
 

  1. 分词,扫描所有特征,建立特征词典
  2. 重新扫描所有特征,利用特征词典将特征映射到特征空间编号 得到特征向量
  3. 学习参数 w
  4. 存储学习参数 w , 存储特征映射词典
  5. 预测截断装载学习参数w,装载特征映射词典
  6. 扫描数据,将所有特征利用特征映射词典映射到特征空间编号 得到特征向量
  7. 利用用学习参数w 对得到的特征向量 进行 点积 做出预测

 
 

 
 

Feature hashing怎么做?

不使用特征词典了,不用考虑额外的存储词典的空间,直接对特征进行hash编号。

有冲突? 后面会说明对效果影响不大!

 
 

 
 

Feature hashing相关 - 1

 
 

Feature hashing相关 - 1

同样的内存占用下 我们可以存储更多的weights!