数据预处理

2019-05-22 python ai

归一化

归一化一般是将数据映射到 (0, 1) 之间的小数,会把有量纲转换为无量纲的数据,也就是纯量。而标准化通常包含了三种方式:Z-Score、最大最小、小数定标法等等,

归一化和标准化的概念实在是太相似了,实在是分不清楚,索性还是直接借用 WikiPedia Feature Scaling 中的概念比较好,不再区分所谓的归一化以及标准化。

标准化

Z-Score

按照 Z-Score 计算的数据满足正态分布,而正态分布也被 Z 分布,所以该方法被称为 Z-Score 。

计算公式为 $z=\frac{x-\mu}{\delta}$ ,其中 $x$ 为观测值,$\mu$ 为总体均值,$\delta$ 为总体标准差,大于零表示大于均值,如果为 1 则表示数据比均值大一个标准差。

实际计算时,很难获取总体的均值和方差,一般会采用样本的特征值。

示例

假设小明英语考了 90 分,语文考了 80 分,那么小红的英语和语文哪个考的好?

如果单纯比较分数,显然英语要好一些,但是因为难度不一样,所以单纯的看分数很难确定整体的排名,可以通过上述的 Z-Score 进行标准化。

假设,英语的均值和方差分别为 95 和 5 ,语文的均值和方差为 70 和 10 ,那么小明英语和语文的 Z-Score 成绩为 -11 ,也就是说实际上语文的成绩要比英语成绩好。