数据准备
统计概念学习。
(1)当观测值为奇数时,(n+1)/2位置的观测值即为中位数。
(2)当观测值个数为偶数时,n/2和n/2 + 1位置的两个观测值的平均数为中位数。
数据的标准化
数据的标准化是指将数据按照比例缩放,使之落入一个特定的区间。
数据的中心化:数据集中的各项数据减去数据集的均值。 中心化公式:
数据的标准化:中心化之后的数据再除以数据集的标准差,即数据集中的各项数据减去数据集的均值再除以数据集的标准差。经过该方法处理的数据的均值是0,标准差是1。 标准化公式:
其中,x为观测者, 为平均值,S为标准差。
scale(x, center = TRUE, scale = TRUE)
x:用于标准化的数据,
center=T:表示数据中心化,
scale=T:表示数据标准化。
默认情况下,center=TRUE,scale=TRUE,scale()函数首先把一组数的每个数都减去这组数的平均值,然后除以这组数的均方根。
如果scale=TRUE,而center=FALSE,那么,scale()函数不会把一组数中的每个数减去平均值,而直接除以这组数据的均方根。
参考资料:
如下:
数据集a有变量:x1,x2,x3等等
求各变量的均值方差,代码如下:
mean(a$x1) var(a$x1)。
mean(a$x2) var(a$x2)。
mean(a$x3) var(a$x3)。
……
如果有无效值,需要在括号内加入na.rm=T。
R是用于统计分析、绘图的语言和操作环境。
R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。
R可以看作贝尔实验室(AT&T BellLaboratories)的Rick Becker、John Chambers和Allan Wilks开发的S语言的一种实现。当然,S语言也是S-Plus的基础。
所以,两者在程序语法上可以说是几乎一样的,可能只是在函数方面有细微差别,程序十分容易地就能移植到一程序中,而很多一的程序只要稍加修改也能运用于R。