数据准备
统计概念学习。
(1)当观测值为奇数时,(n+1)/2位置的观测值即为中位数。
(2)当观测值个数为偶数时,n/2和n/2 + 1位置的两个观测值的平均数为中位数。
数据的标准化
数据的标准化是指将数据按照比例缩放,使之落入一个特定的区间。
数据的中心化:数据集中的各项数据减去数据集的均值。 中心化公式:
数据的标准化:中心化之后的数据再除以数据集的标准差,即数据集中的各项数据减去数据集的均值再除以数据集的标准差。经过该方法处理的数据的均值是0,标准差是1。 标准化公式:
其中,x为观测者, 为平均值,S为标准差。
scale(x, center = TRUE, scale = TRUE)
x:用于标准化的数据,
center=T:表示数据中心化,
scale=T:表示数据标准化。
默认情况下,center=TRUE,scale=TRUE,scale()函数首先把一组数的每个数都减去这组数的平均值,然后除以这组数的均方根。
如果scale=TRUE,而center=FALSE,那么,scale()函数不会把一组数中的每个数减去平均值,而直接除以这组数据的均方根。
参考资料:
数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。由于信用指标体系的各个指标度量单位是不同的,为了能够将指标参与评价计算,需要对指标进行规范化处理,通过函数变换将其数值映射到某个数值区间。一般常用的有以下几种方法。
生成的newvar的均数为0,SD为1
数据中心化和标准化的意义是一样的,为了消除量纲对数据结构的影响。
在R语言中可以使用 scale 方法来对数据进行中心化和标准化:
scale方法中的两个参数center和scale的解释:
1.center和scale默认为真,即T或者TRUE
2.center为真表示数据中心化
3.scale为真表示数据标准化
sweep再举一个例子:
有些地方说归一化,有些地方说标准化。