处理缺失值的方法

时间:2022-12-20 22:35:49
数据清理中,处理缺失值的方法有两种: 删除法:1)删除观察样本  
      
2)删除变量:当某个变量缺失值较多且对研究目标影响不大时,可以将整个变量整体删除
 
      
3)使用完整原始数据分析:当数据存在较多缺失而其原始数据完整时,可以使用原始数据替代现有数据进行分析
 
      
4)改变权重:当删除缺失数据会改变数据结构时,通过对完整数据按照不同的权重进行加权,可以降低删除缺失数据带来的偏差
查补法:均值插补、回归插补、抽样填补等


缺失值处理的传统方法

列删法 

由于删除了非缺失信息,损失了样本量,进而削弱了统计功效。但是,当样本量很大而缺失值所占样本比例较少时(<5%)可以考虑使用列删法。

对删法 

在计算相关矩阵时,用所有可获得的数据计算,不管是否存在缺失值。由于计算每对相关系数基于差异较大的样本,所以存在协方差矩阵非正定的风险。

均值替代法

使用每个变量的均值去填补该变量的缺失值。最不为方法学者推荐。

回归法

根据变量间的相关,利用其他变量的信息通过建立回归方式去推算缺失值。。

相似反应类型插补法

通过从有类似反应模式的个体得分中获得一个数值填补缺失值。偏差要比列删法和对删法要小。

平均同质项目法 

假设个体在某一因子的某些条目上存在缺失值,通过平均其他几个条目得分来填补缺失值。