概率论,二维随机变量,均匀分布

Python011

概率论,二维随机变量,均匀分布,第1张

f(x,y) = A(x从0到1积分,这是外积分) {(y从0到x积分,这是内积分) dy} dx = 1

= A(x从0到1积分,这是外积分) xdx

= (A/2)(x^2)|代入x=1

= A/2

= 1 -->A=2.

即, f(x,y)=2, 0<y<x<1= 0, 其它.

E(X) = 2(x从0到1积分,这是外积分) {(y从0到x积分,这是内积分) xdy} dx

= 2(x从0到1积分,这是外积分) x{(y从0到x积分,这是内积分) dy} dx

= 2(x从0到1积分) (x^2)dx

= 2/3

E(Y) = 2(x从0到1积分,这是外积分) {(y从0到x积分,这是内积分) ydy} dx

= 2(x从0到1积分,这是外积分) {(1/2)x^2} dx

= 1/3

以下类似. 你会的.

利用Hmisc包中的rcorr.cens函数 局限: - 只能处理一个预测变量 - 对超过2分类的分类变量处理粗糙

# 加载包及生成数据框,这里生成数据框主要是为了方便大家理解,因为大家通常都是将Excel的数据读进R,存储为数据框格式

library(survival)

library(Hmisc)

age <- rnorm(200, 50, 10)

bp <- rnorm(200,120, 15)

d.time <- rexp(200)

cens <- runif(200,.5,2)

death <- d.time <= cens

os <- pmin(d.time, cens)

sample.data <- data.frame(age = age,bp = bp,os = os,death = death)

#让我们看一下生成的例子数据的前6行

head(sample.data)

##age bp os death

## 1 33.18822 114.6965 1.106501 FALSE

## 2 41.86970 123.2265 1.365944 FALSE

## 3 50.41484 124.9522 0.867119 FALSE

## 4 45.66936 127.3237 1.155765 TRUE

## 5 39.79024 134.8846 1.257501 TRUE

## 6 31.89088 140.9382 1.125504 FALSE

rcorr.cens的代码及结果,第一个值就是C指数,同时也有Dxy的值

rcorr.cens(sample.data$age, Surv(sample.data$os, sample.data$death))

##C IndexDxy S.D. nmissing

## 4.528492e-01 -9.430156e-02 5.565299e-02 2.000000e+02 0.000000e+00

## uncensored Relevant Pairs Concordant Uncertain

## 1.290000e+02 3.172800e+04 1.436800e+04 8.072000e+03

rcorrcens的代码及结果,注意rcorrcens的写法是写成formula(公式)的形式,较为方便;而rcorr.cens的 写法是只能在前面写上一个自变量,并且不支持data = ...的写法,有点繁琐。较为遗憾的是这两种方法得到的C指数的标准误需要通过S.D./2间接得到。

r <- rcorrcens(Surv(os, death) ~ age + bp,data = sample.data)

r

## Somers' Rank Correlation for Censored DataResponse variable:Surv(os, death)

##

## CDxy aDxySDZ P n

## age 0.453 -0.094 0.094 0.056 1.69 0.0902 200

## bp 0.498 -0.003 0.003 0.054 0.06 0.9517 200

概率 :用数值来描述事件发生的可能性,等于要测定的事件数目与全部可能发生的偶然事件总数之间的比率。

概率分布 用来描述这一系列数值的规律。

概率论中对实验的定义是:能够产生明确结果的过程,投硬币、抛骰子、明天下不下雨、公交车上有几个人,这些都是实验。而所谓随机变量,是对实验结果的数值性描述。例:

通常用大写英文字母表示随机变量,这是约定。

随机变量根据其取值特征,分为离散型和连续型。

实验结果是由可逐一列举的结果组成的,那这个结果就是离散型随机变量。满足

比如上面列举的投骰子事件,一个均匀的骰子,结果必然是在1,2,3,4,5,6之中的一个,而且每个的概率相等,投一次骰子必然出现上述结果中的一个。那么每个结果的概率就是1/6。

离散型随机变量的方差:

连续随机变量中有一种特殊事件,只会产生两种结果,并且重复这一实验每次的结果不会影响其他实验(独立实验),称为伯努利实验。

期望E(x) = p

方差D(x) = p(1-p)

进行一次伯努利实验叫做1重伯努利实验,进行两次伯努利实验叫做2重伯努利实验,以此类推。统计学中管N次伯努利实验的结果分布称为二项分布。

以投硬币来说,(投硬币是很标准的伯努利实验,结果只有正反两面,每次投硬币不影响其他次)重复10次,即10重伯努利实验,查看正面朝上的次数,把10重伯努利实验看做一个试验,随机变量X的取值是正面朝上的次数,则X=0,1,2,3,4,5,6,7,8,9,10 每种结果的概率不尽相等。

其分布服从:

二项概率的期望:

泊松分布的作用是描述一段时间内(或者一段空间中)某一事件发生的次数:比如医院每天接收到的病人数,呼叫台收到的求助电话,或者一段高速公路上道路的损坏量。

比如说,医院每天接诊的病人数量是不固定的,单是理论上讲,最少是0人,最多可以无限多,但是总有一个平均值,不妨设为100人。那么医院接诊人数的概率分布大概是这样的:

最左侧为零概率很小,最大可能100人在峰顶,随着人数增多,概率降低。其概率分布服从:

μ表示均值。

如果实验结果取值是无限的,比如明天降雨量可能是10~50mm之间任意小数,可以用离散随机变量来表示这一事件。

正态分布是一种特殊的分布类型,自然界中非常常见:同龄人中体重分布、商品价格、家电使用寿命等。

正态分布的图形和函数:

正态分布具有如下特性:

为了便于计算,统计学家又创造了一个特殊的工具——标准正态分布。

规定均值μ=0,标准差σ=1的正态分布为标准正态分布,因为在标准正态分布中,根据标准正态分布表可以方便查找某一数值内的概率值。将非标准正态分布转换为标准正态分布的公式是:

得到的Z其实就是,当前X距离均值μ有多少个标准差,然后在标准正态分布表中查找概率即可。

之前讲到的泊松分布,用于描述 单位时间内某一独立事件发生的次数 ,如果说1小时之内有10个人被送往医院,那么我们有没有理由得出一个结论:在进入医院的这些人中,平均每两个人间隔的时间是6分钟呢?

指数概率分布就是用来描述这样的现实情况的, 两个独立事件发生的间隔时间是遵循一定规律的。

下一个病人进入医院的时间遵循下图:

用公式表示:

那么指数概率函数的概率值怎么计算呢?

我们知道,对于连续型随机变量,函数曲线下方的面积表示某一范围内实验成功的概率。

如果医院平均每小时接诊10个病人,等价于平均每隔6分钟就有一个病人入院,如何计算接下来10分钟都没有病人来的概率?

对f(x)进行积分,得到指数概率函数的积分函数

R是为统计而生的语言,而概率又是统计的左右手,那么R中必然涵盖了最丰富最实用的概率函数。

生成一个取值为(1,2,3,4,5)的离散型随机变量

sample函数是取样函数,语句表示在总体S中取样本容量为1 的样本。

连续型随机变量:

生成一个连续随机变量的结果集,最大值为1,最小值为0,总共产生10个结果。

求总体的描述统计量:

在排列组合中有一计数法则,公式为

binom是R中的二项分布函数族,包含密度函数(dbinom),累积分布函数(pbinom),分为函数(qbinom),以及随机数函数(rbinom)

投10次硬币,结果为5次正面的概率

这跟手动计算的结果是一样的,可互相验证。

累计分布函数,正面大于5(包含6,7,8,9,10)的概率

这是正面数0~5的累计概率,大于5的概率为

手动验证:

正确!

rbinom可生成二项实验结果集

rbinom(100,10,.5)表示每轮进行10次实验,共进行100轮,每次实验的概率是1/2 ,返回结果成功次数的结果集。

这是进行100次每次10个实验的结果,如果数值设置大一点,结果就很接近正态分布了。