0
12
463
False
False
None
False
0
数据缺失是指在数据采集时由于某种原因应该得到而没有得到的数据。它指的是现有数据集中某个或某些属性的值是不完全的。缺失值处理的方法大致分为这几类:1、删除法;2、加权方法;3、基于插补的方法;4、基于模型的方法。
### 删除法
|方法名称|方法说明|
|:---:|:---:|
|删除样本|将存在缺失数据的样本删除,这种方法简单易行,在数据集有多个特征缺失值、被删除的含缺失值的对象与信息表中的数据量相比非常小的情况下是非常有效的。但是,在数据集中本来包含的样本很少的情况下,删除少量样本就足以严重影响数据的客观性和结果的正确性|
|删除特征|当某个特征缺失值较多,且对研究目标影响不大,可以将特征整体删除|
|改变权重|当删除缺失数据会改变数据结构时,通过对完整数据按照不同的权重进行加权,可以降低删除缺失数据带来的偏差|
删除法具有很大的局限性,它是以减少历史数据来换取信息的完备,会造成资源的大量浪费,丢弃了大量隐藏在这些对象中的信息。
### 简单插补
+ 均值插补
均值插补是在处理数据时可以把特征分为数值型和非数值型,如果是非数值型的缺失数据,运用统计学中众数的原理,用此变量在其他对象中取值频数最多的值来填充缺失值;如果是数值型的缺失值,则取此变量在其他所有样本的取值均值来补齐缺失值,此方法使得插补值集中在均值点上,在分布上容易形成尖峰,导致方差被低估。可根据一定的辅助变量,将样本分成多个部分,然后在每一部分上分别使用均值插补,称为局部均值插补。
+ 哑变量法
对缺失值创建一个指标,即设一个哑变量,1表示观测数据中存在缺失值,0表示观测数据中不存在缺失值,对缺失数据进行特定值的插补(如均值插补),这样做的好处是在缺失值处理时使用了全部变量的信息,但这样会导致估计有偏。
+ K均值聚类法
利用辅助特征(即无缺失值的特征),定义样本间的距离函数,寻找与缺失值样本距离最近的无缺失值的n个样本,利用这n个样本的加权平均值来估计缺失数据。这种方法在模型中引入了自相关,容易给后面的分析工作造成障碍。
+ 期望最大化(EM算法)
该算法的特点是通过数据扩张,将不完全数据的处理问题转化为对完全数据的处理问题,且通过假设隐变量的存在,简化似然方程,将比较复杂的似然函数极大似然估计问题转化为比较简单的极大似然估计问题。通过以下步骤实现:1、用估计值替代缺失值;2、参数估计;3、假定2中的参数估计值是正确的,再对缺失值进行估计;4、再估计缺失值。
### 基于模型的方法
这类方法适用于大多数场合。一般对观测数据定义一个模型,然后在模型下根据适当的分布做推断。这个方法的优势就是灵活:回避特殊情况的方法,在模型假定基础上产生的方法可以进行推演和评价;以及考虑数据不完整性时方差分析的可用性。
基于模型的方法既不是删除缺失值也不是采用插补方法去补全缺失值,而是首先要考虑缺失数据的缺失机制,在此基础上为部分缺失数据定义模型,模型的参数可以通过极大似然或极大后验估计,以完全信息极大似然估计为例,这是基于模型的方法,可直接用于不完全数据的分析的,最大的特点在于即使缺失数据不是完全随机缺失,估计的结果也是无偏的。完全信息极大似然估计是建立在对数极大似然估计基础上的,假定数据来源于多元正态分布,对于不完全服从多元正态的数据还是稳健的极大似然估计的不足之处在于需要相对比较大的数据集,而且可供推断的信息是有限的。当样本量太小时,不宜采用完全信息极大似然估计。
<br>
实战演练(1)
返回 >
1