《R语言实战》自学笔记25-统计函数

Python012

《R语言实战》自学笔记25-统计函数,第1张

数据准备

统计概念学习。

(1)当观测值为奇数时,(n+1)/2位置的观测值即为中位数。

(2)当观测值个数为偶数时,n/2和n/2 + 1位置的两个观测值的平均数为中位数。

数据的标准化

数据的标准化是指将数据按照比例缩放,使之落入一个特定的区间。

数据的中心化:数据集中的各项数据减去数据集的均值。 中心化公式:

数据的标准化:中心化之后的数据再除以数据集的标准差,即数据集中的各项数据减去数据集的均值再除以数据集的标准差。经过该方法处理的数据的均值是0,标准差是1。 标准化公式:

其中,x为观测者, 为平均值,S为标准差。

scale(x, center = TRUE, scale = TRUE)

x:用于标准化的数据,

center=T:表示数据中心化,

scale=T:表示数据标准化。

默认情况下,center=TRUE,scale=TRUE,scale()函数首先把一组数的每个数都减去这组数的平均值,然后除以这组数的均方根。

如果scale=TRUE,而center=FALSE,那么,scale()函数不会把一组数中的每个数减去平均值,而直接除以这组数据的均方根。

参考资料:

如下:

数据集a有变量:x1,x2,x3等等

求各变量的均值方差,代码如下:

mean(a$x1) var(a$x1)。

mean(a$x2) var(a$x2)。

mean(a$x3) var(a$x3)。

……

如果有无效值,需要在括号内加入na.rm=T。

R是用于统计分析、绘图的语言和操作环境。

R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。

R可以看作贝尔实验室(AT&T BellLaboratories)的Rick Becker、John Chambers和Allan Wilks开发的S语言的一种实现。当然,S语言也是S-Plus的基础。

所以,两者在程序语法上可以说是几乎一样的,可能只是在函数方面有细微差别,程序十分容易地就能移植到一程序中,而很多一的程序只要稍加修改也能运用于R。