《R语言实战》自学笔记25-统计函数

Python020

《R语言实战》自学笔记25-统计函数,第1张

数据准备

统计概念学习。

(1)当观测值为奇数时,(n+1)/2位置的观测值即为中位数。

(2)当观测值个数为偶数时,n/2和n/2 + 1位置的两个观测值的平均数为中位数。

数据的标准化

数据的标准化是指将数据按照比例缩放,使之落入一个特定的区间。

数据的中心化:数据集中的各项数据减去数据集的均值。 中心化公式:

数据的标准化:中心化之后的数据再除以数据集的标准差,即数据集中的各项数据减去数据集的均值再除以数据集的标准差。经过该方法处理的数据的均值是0,标准差是1。 标准化公式:

其中,x为观测者, 为平均值,S为标准差。

scale(x, center = TRUE, scale = TRUE)

x:用于标准化的数据,

center=T:表示数据中心化,

scale=T:表示数据标准化。

默认情况下,center=TRUE,scale=TRUE,scale()函数首先把一组数的每个数都减去这组数的平均值,然后除以这组数的均方根。

如果scale=TRUE,而center=FALSE,那么,scale()函数不会把一组数中的每个数减去平均值,而直接除以这组数据的均方根。

参考资料:

数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。由于信用指标体系的各个指标度量单位是不同的,为了能够将指标参与评价计算,需要对指标进行规范化处理,通过函数变换将其数值映射到某个数值区间。一般常用的有以下几种方法。

生成的newvar的均数为0,SD为1

数据中心化和标准化的意义是一样的,为了消除量纲对数据结构的影响。

在R语言中可以使用 scale 方法来对数据进行中心化和标准化:

scale方法中的两个参数center和scale的解释:

1.center和scale默认为真,即T或者TRUE

2.center为真表示数据中心化

3.scale为真表示数据标准化

sweep再举一个例子:

有些地方说归一化,有些地方说标准化。