R语言之 常用的统计函数

Python010

R语言之 常用的统计函数,第1张

用的最多的,是求均值的mean()函数,当然这里也要提到,像sum()这种求和函数,

还有sd(x) 标准差函数,var(x) 方差函数。min()求最小值,max()求最大值。

我们来具体试试,这里使用一个向量

test<-c(2,4,5,23,199,25,78,90,12)

求最大值

>max(test)

[1] 19

求最小值

>min(test)

求和

>sum(test)

[1] 43

求标准差,求方差

>sd(test)

[1] 65.01154

>var(test)

[1] 4226.

在来试试最重要的均值

>mean(test)

[1] 48.66667

另外中位数计算。使用median()函数

>median(test)

[1] 23

如果给定一种概率分布,通常会有四类计算问题:

计算其概率密度density (d)计算其概率分布probability(p)计算其百分位数quantile (q)随机数模拟random (r)上面四类计算对应的英文首字母,就是R语言类率分布函数的开头字母。

比如说,正态分布是norm的化,那密度函数就是dnorm(),分布函数就是pnorm(),

更有用的是用相应分布生成随机数,比如rnorm(),就会生成服从正态分布的随机数。

比如我们生成100个服从正态分布的随机数

rnorm(100)

[1] -9.064408e-01 1.026560e+00 -1.097470e+00 1.055395e+00 9.377175e-01

[6] -2.080103e-01 -3.092396e-01 -8.739942e-01 -1.242774e+00 1.102486e+00

[11] 1.082092e+00 -1.695528e+00 -5.930809e-01 -2.100800e-01 8.253859e-01

[16] -1.112551e+00 -3.960474e-01 -9.354820e-01 7.291608e-01 -3.773510e-01

[21] -3.438082e-01 -7.378688e-02 -9.047609e-01 -1.036344e+00 9.485103e-01

[26] -3.437985e-01 -2.145275e-02 1.350098e+00 -1.283633e+00 3.767240e-01

[31] 1.169566e+00 -4.325399e-01 -9.215626e-02 3.839357e-01 3.045491e-01

......

我们再用相应的频率分布直方图来看一下,这些生成的随机数:

hist(rnorm(100))

R就画出了这些随机数的频率分布图

最近身体状况不太好的我,已经懒惰到不太想用脑子思考问题了,但也总不能什么事情都不做就这样蹉跎岁月吧,于是想着把自己之前的知识总结总结。今天就先把R语言的知识总结总结吧。

R语言是一个应用非常广泛的并且免费的用于统计计算和作图的计算机语言,无论什么和数据分析有关的行业,基本都会用到R。R 环境由一组数据操作,计算和图形展示的工具构成。它的特色在于:1.有效的数据处理和保存机制;2.完整的数组和矩阵计算操作符;3.连贯而又完整的数据分析工具;4.图形工具可以对数据直接进行分析和展示,同时可用于多种图形设备;5.它是一种相当完善,简洁而又高效的程序设计语言(也就是‘S’)。

基本的数据类型:

向量有一些基本运算:

求三角函数的值:sin(x),cos(x),tan(x)

向量开根号:sqrt(x)

求向量的和:sum(x)

向量的最大值和最小值:max(x) 和min(x)。

向量的范围:range (x)

向量的长度:length(x)

向量的均值:mean(x)

向量的方差:var(x)

向量的标准差:sd(x)

向量的累乘:prod(x)

数组可以看作是带有多个下标类型相同的元素集合,如数值型。

维度向量(dimension vector)是一个正整数向量。如果它的长度为k,那么该数组就是k-维的,例如矩阵是2-维数组。

数组只允许单一类型的值出现。

在R中数组用array()函数建立。

矩阵是一个2维的数组,一般用matrix()来构建一个矩阵,array()也可以创建一个2维数组(矩阵)。

例子:定义一个从1到20,行数为4,列数为5的矩阵。

向量的合并:

也可以用cbind()和rbind()函数将相同长度的向量接合成矩阵。

t()可以将矩阵进行转置,或用aperm()代替。

同样矩阵也可以做合并,同样是用rbind和cbind。

rbind和cbind,除能合并等长的向量外,还能合并数据框和矩阵。

矩阵工具:1).函数nrow(A) 和ncol(A) 将会分别返回矩阵A 的行数和列数.2).colnames(A)rownames(A)会分别返回矩阵A 的列名和行名。3).将一个数组强制转换成简单向量的标准方法是用函数as.vector(),或用c()。

因子(factor)是一个对等长的其他向量元素进行分类(分组)的向量对象。 R同时提供有序(ordered)和无序(unordered)因子。有序意味着以字母排序。

函数factor()引入因子。

函数levels()表示因子的水平。

有序因子:函数ordered() 用来创建有序因子。在其他方面,函数ordered() 和factor() 基本完全一样。大多数情况下,有序和无序因子的唯一差别在于前者显示的时候反应了各水平的顺序。

7.1. R 的列表(list)是一个以对象的有序集合构成的对象。列表中包含的对象又称为它的分量(components)。

7.2. 分量可以是不同的模式或类型,如一个列表可以同时包括数值向量,逻辑向量,矩阵,复向量,字符数组,函数等等。

7.3. 列表的建立采用list()函数,列表通过[[index/name]]进行访问。

8.1. 数据框(data frame)是一个属于“data.frame” 类的列表。

8.2. 数据框常常会被看作是一个由不同模式和属性的列构成的矩阵。它能以矩阵形式出现,行列可以通过矩阵的索引习惯访问。

8.3. 用data.frame()函数构建数据框。