数据预处理归一化详细解释
本文已参与「新人创作礼」活动,一起开启掘金创作之路。
一、为何要进行数据预处理?
1.任何收集而来的庞大数据往往是不可能一拿到就可以立马用得上的,比如一些数值大的数据,计算量复杂度高,不容易收敛,很难进行统计处理。
2.数据不符合正态分布,无法做一些符合正态分布的数学分析。
所以为了对数据进行更好的利用,我们需要使数据标准化。
二、数据标准化
数据无量纲化处理主要解决数据的可比性。数据标准化的方法有很多种,常用的有“最小—最大标准化”、“Z-score标准化”和“按小数定标标准化”等。经过上述标准化处理,原始数据均转换为无量纲化指标测评值,即各指标值都处于同一个数量级别上,可以进行综合测评分析。这里我们重点讨论最常用的数据归一化处理,即将数据统一映射到[0,1]区间上。
1.归一化的目标
1.把数据转换为(0,1)区间的小数, 主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速。
2.把有量纲表达式变为无量纲表达式,解决数据的可比性。
2.归一化的优点
1.归一化后加快了梯度下降求最优解的速度,如果机器学习模型使用梯度下降法求最优解时,归一化往往非常有必要,否则很难收敛甚至不能收敛。
2.归一化有可能提高精度,一些分类器需要计算样本之间的距离(如欧氏距离),例如KNN。如果一个特征值域范围非常大,那么距离计算就主要取决于这个特征,从而与实际情况相悖(比如这时实际情况是值域范围小的特征更重要)。
3.哪些算法并不需要归一化
概率模型(树形模型)不需要归一化,因为它们不关心变量的值,而是关心变量的分布和变量之间的条件概率,如决策树、RF。而像Adaboost、SVM、LR、Knn、KMeans之类的最优化问题就需要归一化。
三、数据归一化方法
1.min-max标准化
通过遍历feature vector里的每一个数据,将Max和Min的记录下来,并通过Max-Min作为基数(即Min=0,Max=1)进行数据的归一化处理:其中Max为样本数据的最大值,Min为样本数据的最小值。
``` def MaxMinNormalization(x,Max,Min):
x = (x - Min) / (Max - Min);
return x;
``` 使用numpy中的np.max()和np.min()就可找到最大和最小值。这种归一化方法比较适用在数值比较集中的情况。这种方法有个缺陷,如果max和min不稳定,很容易使得归一化结果不稳定,使得后续使用效果也不稳定。实际使用中可以用经验常量值来替代max和min。
ps: 将数据归一化到[a,b]区间范围的方法: (1)首先找到原本样本数据X的最小值Min及最大值Max\ (2)计算系数:k=(b-a)/(Max-Min)\ (3)得到归一化到[a,b]区间的数据:Y=a+k(X-Min) 或者 Y=b+k(X-Max)
2.Z-score标准化
最常见的标准化方法就是Z标准化,也是SPSS中最为常用的标准化方法,spss默认的标准化方法就是z-score标准化。
也叫标准差标准化,这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。
``` def Z_ScoreNormalization(x,mu,sigma):
x = (x - mu) / sigma;
return x;
``` numpy中mean和std函数,sklearn提供的StandardScaler方法都可以求得均值和标准差。标准化后的变量值围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平。 下面使用numpy来实现一个矩阵的标准差标准化
``` import numpy as np
x_np = np.array([[1.5, -1., 2.], [2., 0., 0.]]) mean = np.mean(x_np, axis=0) std = np.std(x_np, axis=0) print('矩阵初值为:{}'.format(x_np)) print('该矩阵的均值为:{}\n 该矩阵的标准差为:{}'.format(mean,std)) another_trans_data = x_np - mean another_trans_data = another_trans_data / std print('标准差标准化的矩阵为:{}'.format(another_trans_data)) ```
矩阵初值为:[[ 1.5 -1. 2. ]
[ 2. 0. 0. ]]
该矩阵的均值为: [ 1.75 -0.5 1. ]
该矩阵的标准差为:[0.25 0.5 1. ]
标准差标准化的矩阵为:[[-1. -1. 1.]
[ 1. 1. -1.]]
下面使用sklearn提供的StandardScaler方法
``` from sklearn.preprocessing import StandardScaler # 标准化工具 import numpy as np
x_np = np.array([[1.5, -1., 2.],
[2., 0., 0.]])
scaler = StandardScaler()
x_train = scaler.fit_transform(x_np)
print('矩阵初值为:{}'.format(x_np))
print('该矩阵的均值为:{}\n 该矩阵的标准差为:{}'.format(scaler.mean_,np.sqrt(scaler.var_)))
print('标准差标准化的矩阵为:{}'.format(x_train))
``
矩阵初值为:[[ 1.5 -1. 2. ]
[ 2. 0. 0. ]]
该矩阵的均值为: [ 1.75 -0.5 1. ]
该矩阵的标准差为:[0.25 0.5 1. ]
标准差标准化的矩阵为:[[-1. -1. 1.]
[ 1. 1. -1.]]
`
以发现,sklearn的标准化工具实例化后会有两个属性,一个是mean_(均值),一个var_(方差)。最后的结果和使用numpy是一样的。
为什么z-score 标准化后的数据标准差为1?
x-μ只改变均值,标准差不变,所以均值变为0;(x-μ)/σ只会使标准差除以σ倍,所以标准差变为1。
3.Sigmoid函数:
Sigmoid函数是一个具有S形曲线的函数,是良好的阈值函数,在(0, 0.5)处中心对称,在(0, 0.5)附近有比较大的斜率,而当数据趋向于正无穷和负无穷的时候,映射出来的值就会无限趋向于1和0。根据公式的改变,就可以改变分割阈值,这里作为归一化方法,我们只考虑(0, 0.5)作为分割阈值的点的情况:
``` from matplotlib import pyplot as plt import numpy as np import math
def sigmoid_function(z): fz = [] for num in z: fz.append(1 / (1 + math.exp(-num))) return fz
if name == 'main': z = np.arange(-10, 10, 0.01) fz = sigmoid_function(z) plt.title('Sigmoid Function') plt.xlabel('z') plt.ylabel('σ(z)') plt.plot(z, fz) plt.show() ```
总结
主要还是对机器学习中的sklearn提供的StandardScaler方法后发现数据标准化这一概念,对大佬Friedman检验进一步理解。
点关注,防走丢,如有纰漏之处,请留言指教,非常感谢
以上就是本期全部内容。我是fanstuck ,有问题大家随时留言讨论 ,我们下期见。
我正在参与掘金技术社区创作者签约计划招募活动,点击链接报名投稿。
- 一文速学数模-集成预测模型Boost(提升方法)原理以及框架 模型速览
- Python-sklearn机器学习之旅:我的第一个机器学习实战项目
- 斯皮尔曼相关(spearman)相关性分析一文详解 python实例代码
- sklearn预测评估指标计算详解:准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1score
- 机器学习:性能度量篇-Python利用鸢尾花数据绘制P-R曲线
- Pandas数据分析:快速图表可视化各类操作详解 实例代码(一)
- Pandas数据分析:快速图表可视化各类操作详解 实例代码(二)
- Pandas数据分析:处理文本数据(str/object)各类操作 代码一文详解(一)
- 决策树(Decision Tree)算法详解及python实现
- PCA(主成分分析法)原理以及应用 代码实现
- 机器学习:性能度量篇-Python利用鸢尾花数据绘制ROC和AUC曲线
- 深度学习面试常见问题
- 数据预处理归一化详细解释
- 一文速学-熵权法实战确定评价指标权重
- 机器学习:基于概率的朴素贝叶斯分类器详解--Python实现以及项目实战
- 机器学习:贝叶斯分类器详解(一)-贝叶斯决策理论与朴素贝叶斯
- 秩和比综合评价法(RSR)详解及Python实现和应用
- SVM(Support Vector Machines)支持向量机算法原理以及应用详解 Python代码实现
- 机器学习:基于概率的朴素贝叶斯分类器详解--Python实现以及项目实战
- 机器学习:性能度量篇-Python利用鸢尾花数据绘制P-R曲线