数据酷客，中国领先的大数据教育云平台-'数据科学与大数据技术'，'大数据技术与应用'

课程目录

特征离散化

完成学习

### 特征离散化介绍一般来说，数据集的特征按其取值类型可分为两类：连续型特征和离散型特征。在实际数据分析及建模过程中，数据科学算法需要规约其输入数据特征为离散型特征，而有些算法虽然也能处理连续型特征，但离散型特征输入能使这些算法产生更好的预测效果。因此，在实际情形中，需要首先对连续型变量作离散化处理使其转化为离散型变量。数据变量的离散化过程简单来说就是将连续型特征切分为若干段，使得原始的连续型特征落在相应的区间段中，从而完成将连续型特征转化为离散型特征的过程。在建模分析过程中，对连续型特征的离散化处理往往有如下优点： + 离散化处理本质是将连续型数据分段，因此数据中的离群值会直接划入相应的区间段中，进而增强模型对于数据离群值的鲁棒性 + 离散化后的特征，其取值均转化为有明确含义的区间号，相对于原始的连续型来说，含义更加明确，从而使得数据的可解释性更强，模型更易使用与理解 + 将连续型特征离散化后，特征的取值大大减少，这样一来减少了数据集对于系统存储空间的需求，二来在算法建模中也大大减少了模型的实际运算量，从而可以提升模型的计算效率特征离散化方法可按是否参考了数据集的标签信息分为有监督的离散化和无监督的离散化。其中常用无监督的离散化方法有：等距离散化、等频离散化、聚类离散化等。常用有监督的离散化方法有：信息增益离散化、卡方离散化等。 ### 无监督离散化无监督的离散化方法不参考数据集中的Y值信息，直接根据数据本身的分布特性将连续型数据进行离散化处理。 + 等距离散。根据连续型变量的取值，将其均匀地划分成n个区间，每个区间的间距均相等，然后将数据相应地划入对应的区间从而完成变量离散化。 + 等频离散化。根据连续型变量的总个数，将其均匀地划分成n份，使得每份中的数据点个数相同，然后每一份数据的取值范围即是对应的变量离散化区间。等距和等频离散化是最简单易用的两种无监督变量离散化方法。等距离散化方法会倾向于将数据不均匀地划入离散化区间中，这极容易导致特征取值分布不均匀，并且其对离群值较为敏感；而等频离散化方法则会将数据变换为均匀分布，有时会将相同取值的数据点划分入不同的区间内，因此该种方法容易使得临近几个区间段内的数据具有相似的特性。 + 聚类离散化我们知道，聚类是将数据分类到不同的类或者簇的一个过程，其分类结果是同一个簇中的对象有很大的相似性，而不同簇间的对象有很大的相异性，同时聚类又是一个无监督学习过程。因此，在进行变量无监督离散化时可以考虑利用聚类分析的特性对连续型变量进行离散化处理。聚类离散化处理主要分为两个步骤： + 将需要离散化的连续型特征用聚类算法（如K-Means，EM算法等）依据该特征的分布特征划分成相应的簇或组 + 然后对聚类得到的簇进一步划分，划分方式可以是从上而下的分裂策略和从下而上的合并策略。分类策略是将每一个簇进一步细分为更小的子簇，而合并策略则是通过对邻近相似的簇进行合并处理得到最终的结果值得注意的是，基于聚类分析的离散化方法需要人工指定簇的个数$n$，即最终离散化区间的个数。 <br> ### 有监督离散化有监督的离散化方法参考数据集中的Y值信息，利用真实的数据类别信息对连续型数据进行离散化处理。 + 信息增益离散化信息增益离散化源自于决策树模型建立时基于信息增益的评价标准。由于建立决策树模型时用信息增益（熵）来分裂连续型特征的准则在实际处理中效果很好，受此启发，将基于信息增益（熵）的分裂方法用于连续型特征的离散化处理中，通过反复分裂小区间直至满足条件。在决策树算法中，ID3和C4.5是最常用的基于熵来进行指标选择分类的算法。将这两种决策树算法应用于连续型指标的离散化的过程的核心即是采用单变量决策树对目标变量进行建模，然后根据决策树模型所建立的叶节点划分的区间对变量进行划分，将连续型变量划入不同的区间，转化为离散型变量。该方法最终所划分的区间个数则由单变量决策树的叶子结点个数确定，实际应用中需要首先给定单变量决策树的叶子结点个数。 + 卡方离散化上述基于信息增益的离散化方法为自顶向下的分裂策略，即首先将数据集看作一个整体的区间，然后根据单变量决策树的分类结果逐级将大区间分成小区间，完成离散化。而基于卡方的离散化方法则是自底向上的分裂策略，即首先将数据集内的所有数据点均看作是一个独立的区间，然后逐一递归进行区间合并，基于卡方检验来判定相似可合并的区间，并完成离散化。 **卡方检验** 卡方检验是统计学中非常常用的假设检验方法。它属于非参数检验的范畴，主要是比较两个及两个以上样本率（构成比）以及两个分类变量的关联性分析。卡方检验基于的的无效假设$H_0$是：观察频数与期望频数没有显著区别。卡方检验的基本思想是：首先假设$H_0$成立，并基于此前提计算出$\chi^2$值，通过该值表示观察值与理论值之间的偏离程度。根据$\chi^2$分布及自由度可确定在原无效假设$H_0$成立的情况下获得当前统计量及更极端情况的概率P，即P值。如果P值很小，说明观察值与理论值偏离程度太大，应当拒绝无效假设，表示比较资料之间有显著差异；否则就不能拒绝无效假设，尚不能认为样本所代表的实际情况和理论假设有显著差异。卡方检验的核心$\chi^2$统计量最初由英国统计学家Karl Pearson在1900年首次提出，因此也称之为Pearson$\chi^2$，其计算公式为： $$ \chi^2＝\sum \frac{(A-E)^2}{E}=\sum_{i=1}^k \frac{(A_i-E_i)}{E_i}=\sum_{i=1}^k \frac{(A_i-np_i)}{np_i} $$ 其中，$A_i$为i水平的观察频数，$E_i$为i水平的期望频数，n为总频数，$p_i$为i水平的期望频率。i水平的期望频数$E_i$等于总频数n×i水平的期望概率$p_i$，k为单元格数。当n比较大时，$\chi^2$统计量近似服从k-1个(计算$E_i$时用到的参数个数)自由度的卡方分布。由上述公式可知，当观察频数与期望频数完全一致时，$\chi^2$值为0；观察频数与期望频数越接近，两者之间的差异越小，$\chi^2$值越小；反之，观察频数与期望频数差别越大，两者之间的差异越大，$\chi^2$值越大。因此，大的$\chi^2$值表明观察频数远离期望频数，即表明远离假设。小的$\chi^2$值表明观察频数接近期望频数，接近假设。故而，$\chi^2$是观察频数与期望频数之间距离的一种度量指标，也是假设成立与否的度量指标。总结来说，小的$\chi^2$值倾向于不拒绝H0；而大的$\chi^2$值则倾向于拒绝H0。而具体的判定阀值则取决于实际应用中的置信水平。 **离散化** 最常用的基于卡方的离散化方法是ChiMerge方法。其离散化的过程为：首先将数值集中的每个不同值看作一个独立的区间，并对其中每一对相邻区间计算卡方统计量，然后将其与预设的阈值进行比较，合并相似的邻近区间。合并的过程递归地进行，直至计算得到的卡方统计量不再大于阈值，也就是找不到相邻的区间可以进行合并，则离散化过程终止，得到最终的离散化结果。 <br>

实战演练（1）

返回 >