r语言计算概率的代码怎么写

2023-02-24 08:49:02Python049

r语言计算概率的代码怎么写,第1张

R一个很方便的用处是提供了一套完整的统计表集合。函数可以对累积分布函数P(X≤x)，概率密度函数，分位函数（对给定的q，求满足P(X≤x) >q的最小x）求值，并根据分布进行模拟。

在统计学中，产生随机数据是很有用的，R可以产生多种不同分布下的随机数序列。这些分布函数的形式为rfunc(n,p1,p2,...)，其中func指概率分布函数，n为生成数据的个数，p1, p2, . . .是分布的参数数值。上面的表给出了每个分布的详情和可能的缺省值（如果没有给出缺省值，则意味着用户必须指定参数）。

例：用0~1之间的均匀分布产生10个随机点

>runif(10)

[1] 0.961465376 0.0075219250.193619234 0.137027246 0.739370654 0.072907082

[7] 0.674551635 0.6507778110.984664183 0.796723066

大多数这种统计函数都有相似的形式，只需用d、p或者q去替代r，比如密度函数(dfunc(x, ...))，累计概率密度函数（也即分布函数）(pfunc(x,...))和分位数函数(qfunc(p, ...)，0<p<1)。最后两个函数序列可以用来求统计假设检验中P值或临界值。例如，显著性水平为5%的正态分布的双侧临界值是：

>qnorm(0.025)

[1] -1.959964

>qnorm(0.975)

————————————————

在R中，概率函数形如：

[dpqr]distribution_abbreviation

其中第一个字母表示其所指分布的某一方面：

d = 密度函数（density）

p = 分布函数（distribution function）

q = 分位数函数（quantile function）

r = 生成随机数（随机偏差）

以正态分布为例

1 什么是正态分布？

正态分布也被称为高斯分布，是统计学中极为常见的连续型概率分布。正态曲线呈钟型，两头低，中间高，左右对称因其曲线呈钟形，因此人们又经常称之为钟形曲线。

2 正态分布的两个参数及图形

正态分布有两个参数，即均数和标准差。 1）概率密度曲线在均值处达到最大，并且对称； 2）一旦均值和标准差确定，正态分布曲线也就确定； 3）当X的取值向横轴左右两个方向无限延伸时，曲线的两个尾端也无限渐近横轴，理论上永远不会与之相交； 4）正态随机变量在特定区间上的取值概率由正态曲线下的面积给出，而且其曲线下的总面积等于1；

5）均值可取实数轴上的任意数值，决定正态曲线的具体位置；标准差决定曲线的“陡峭”或“扁平”程度：标准差越大，正态曲线越扁平；标准差越小，正态曲线越陡峭。这是因为，标准差越小，意味着大多数变量值离均数的距离越短，因此大多数值都紧密地聚集在均数周围，图形所能覆盖的变量值就少些，于是都挤在一块，图形上呈现瘦高型。相反，标准差越大，数据跨度就比较大，分散程度大，所覆盖的变量值就越多，图形呈现“矮胖型”。

3 标准正态分布

如果不指定一个均值和一个标准差，则函数将假定其为标准正态分布（均值为0，标准差为1）。

4 正态分布的概率函数

概率密度函数为dnorm()，分布函数pnorm()，分位函数qnorm()，随机数生成函数rnorm()。

dnorm(x, mean = 0, sd = 1, log = FALSE)

pnorm(q, mean = 0, sd = 1, lower.tail = TRUE, log.p = FALSE)

qnorm(p, mean = 0, sd = 1, lower.tail = TRUE, log.p = FALSE)

rnorm(n, mean = 0, sd = 1)

x - 是数字的向量。

p - 是概率向量。

n - 是观察次数(样本量)。

mean - 是样本数据的平均值，默认值为零。