机器学习笔记——特征标准化
数据标准化是在特征处理环节必不可少的重要步骤。
数据标准化是为了消除不同指标量纲的影响,方便指标之间的可比性,量纲差异会影响某些模型中距离计算的结果。
常见标准化方法主要有归一化、正态化。
数据归一化也即0-1标准化,又称最大值-最小值标准化,核心要义是将原始指标缩放到0~1之间的区间内。相当于对原变量做了一次线性变化。
其公式为
EX = (x- min)/(max - min)
另一种常用的标准化方法是z-score标准化,将原始指标标准化为均值为0,标准化为1的正态分布。
EX = (x - mean)/σ
R 语言中的特征标准化:
library
(
"caTools"
)
library
(
"scales"
)
data(iris)
split = sample.split(iris$Species,SplitRatio =
.8
)
train_data = subset(iris,split == TRUE)
test_data = subset(iris,split == FALSE)
train_data[,- 5 ] = apply(train_data[,- 5 ], 2 ,rescale,to = c( , 1 ))
test_data[,- 5 ] = apply(test_data[,- 5 ], 2 ,rescale,to = c( , 1 ))
以上scales包中的rescale函数可以自动完成指标中0-1标准化的任务,事实上,它可以将原始指标线性变化到任何一个数字区间内。
我们可以来验证结果是否是可信的。
range(train_data[, 1 ])
range(apply(train_data[,- 5 ], 2 ,rescale,to = c( , 1 ))[, 1 ])
[
1
]
4.3
7.7
[
1
]
1
当然你也可以自己写一个叫简单的0-1标准化函数
scale1 = function (x){
(x - min(x))/(max(x) - min(x))
}
range(apply(train_data[,- 5 ], 2 ,scale1)[, 1 ])
[ 1 ] 1
z-score 标准化
z-score 标准化可以通过scale函数快速实现。
train_data[,- 5 ] = scale(train_data[,- 5 ])
mean(train_data[, 1 ]);sd(train_data[, 1 ])
[
1
]
5.869167
[
1
]
0.8259241
mean(scale(train_data[,-
5
])[,
1
]);sd(scale(train_data[,-
5
])[,
1
])
[
1
]
[
1
]
1
#
自定义一个z-score标准化函数
z_norm = function (x){
(x - mean(x))/sd(x)
}
mean(apply(train_data[,- 5 ], 2 ,z_norm)[, 1 ]);sd(apply(train_data[,- 5 ], 2 ,z_norm)[, 1 ])
[
1
]
[
1
]
1
Python 中sk-learn库中有专门用于处理以上两种标准化的函数。
from
sklearn
import
preprocessing
from
sklearn.model_selection
import
train_test_split
from
sklearn.datasets
import
load_iris
import
pandas
as
pd
import
numpy
as
np
iris = load_iris()
data = iris[ 'data' ]
iris_data = pd.DataFrame(
data = data,
columns = [ 'sepal_length' , 'sepal_width' , 'petal_length' , 'petal_width' ]
)
iris_data[ "Species" ] = iris[ 'target' ]
iris_data[ "Species" ] = iris_data[ "Species" ].map({ : "setosa" , 1 : "versicolor" , 2 : "virginica" })
x,y = iris_data.iloc[:, :- 1 ],iris_data.iloc[:,- 1 ]
train_data,_data,train_target,test_target = train_test_split(x,y,test_size = 0.2 ,stratify = y)
Python 中的0-1标准化
min_max_scaler = preprocessing.MinMaxScaler()
#
实例化0-1标准化方法
X_train_minmax = min_max_scaler.fit_transform(test_data.iloc[:,
:
4
].values)
X_test_minmax = min_max_scaler.transform(test_data.iloc[:, : 4 ].values)
X_train_minmax[:, ].max() - X_train_minmax[:, ].min() 1.0
Python 中的z-score标准化
训练集第一列的均值和方差如下
train_data.iloc[:,
].mean();train_data.iloc[:,
].std()
5.86166666666666
40.8416853174847874
sc_X = preprocessing.StandardScaler()
#
实例化z-score标准化方法
X_train = sc_X.fit_transform(train_data.iloc[:,
:
4
].values)
X_test = sc_X.transform(test_data.iloc[:, : 4 ].values)
标准化后第一列的均值和方差
X_train[:, ].mean();X_train[:, ].std()
- 2.2907601741432396e-151.0
以上仅介绍了最常用的两种标准化特征的方法及其实现,标准化的方法还有很多,对于什么的模型需要使用标准化以及适用什么方法的标准化,需要视具体场景和数据量级差异而定,小编也在摸索中。
标准化一方面可以防止原始特征中量纲差异影响距离运算(比如欧氏距离的运算)。
另一方面标准化也可以在一定程度上提升算法求解的效率。
https://mp.weixin.qq.com/s/z97Wtes-tfXQYDl-xx_cBg