r语言贝叶斯判别先验概率怎么去

Python018

r语言贝叶斯判别先验概率怎么去,第1张

Bayes判别,它是基于Bayes准则的判别方法,判别指标为定量资料,它的判别规则和最大似然判别、Bayes公式判别相似,都是根据概率大小进行判别,要求各类近似服从多元正态分布。

1. Bayes准则:寻求一种判别规则,使得属于第k类的样品在第k类中取得最大的后验概率。

基于以上准则,假定已知个体分为g类,各类出现的先验概率为P(Yk),且各类均近似服从多元正态分布,当各类的协方差阵相等时,可获得由m个指标建立的g个线性判别函数Y1,Y2,…,Yg,分别表示属于各类的判别函数值:

其中Cjk即为判别系数,通过合并协方差阵代入即可计算得各个指标的判别系数,而C0k中则加以考虑了先验概率P(Yk):

2. 先验概率的确定:若未知各类的先验概率时,一般可用:

(1)等概率(先验无知):P(Yk)= 1/g(all groups equal)。

(2)频率:P(Yk)= nk/N (当样本较大且无选择偏倚时用,compute from sample size)

3. 判别规则:

(1)计算样品属于各类的判别函数值,把对象判别为Y值最大的类。

(2)根据所得Y值,我们亦可以进一步计算属于k类的后验概率,再将对象判给后验概率最大的一类。

以上两种判别规则的结果是完全一致的。

函数介绍

实现Bayes判别可以调用程序包klaR中NaiveBayes()函数,其调用格式为:

NaiveBayes(x,grouping,prior,usekernel =FALSE,fL = 0, ...)

复制

x为训练样本的矩阵或数据框,grouping表示训练样本的分类情况,prior可为各个类别指定先验概率,默认情况下用各个类别的样本比例作为先验概率,usekernel指定密度估计的方法,默认情况下使用标准的密度估计,设为TRUE时,则使用核密度估计方法;fL指定是否进行拉普拉斯修正,默认情况下不对数据进行修正,当数据量较小时,可以设置该参数为1,即进行拉普拉斯修正。

例子:利用Iris数据集进行Bayes判别

>install.packages("klaR")

>X<-iris[1:100,1:4]

>G<-as.factor(gl(2,50))

>library(klaR)

>x<-NaiveBayes(X,G)

>predict(x)

$class

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36

1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54

1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2

55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72

2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2

73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90

2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2

91 92 93 94 95 96 97 98 99 100

2 2 2 2 2 2 2 2 2 2

复制

由分析结果可知,根据已知分类的训练样品建立的判别规则,出现了0个样本错判,回代的判别正确率为100%。

介绍

第一部分 参数方法——类密度模型参数估计

第二部分 监督学习——分类(基于似然的方法)

第三部分 监督学习——分类(基于判别式的方法)(参数方法——判别式参数估计)

第四部分 监督学习——回归

第五部分 监督学习——关联规则

第六部分 维度规约(特征的提取和组合)

第七部分 半参数方法

第八部分 非监督学习——聚类

第九部分 非参数方法——密度估计

第十部分 非参数方法——决策树实现的判别式

第十一部分 多层感知器——非参数估计器

第十二部分 局部模型

第十三部分 支持向量机与核机器

第十四部分 隐马尔科夫模型

第十五部分 参数的贝叶斯估计

第十六部分 集成学习——组合多学习器

第十七部分 增强学习

第十八部分 机器学习实验

第十九部分 特征工程与数据预处理

在贝叶斯方法中,把参数看做具有某种概率分布的随机变量,对参数的这种不确定性建模。

在极大似然估计中,把参数看做未知常数,取最大化似然 的参数为估计值。但在使用小样本时,极大似然估计可能是很差的估计,在不同的训练集上求得的参数相差较大,具有较大方差。

在贝叶斯估计中,利用估计 具有不确定这一事实,不是估计单个 ,而是通过估计分布 ,加权使用所有的 。也就是分摊估计的不确定性。

在估计 时,可以利用我们可能具有的关于参数值的先验信息 。尤其在使用小样本时,先验信息很重。使用贝叶斯规则,将先验与似然结合在一起,来计算后验 。

这样,给定样本X,能够用它估计新实例 的概率分布:

如果 是离散值,则用 取代积分,后验则为样本X下每个 的可能性。

这与《 参数方法——类密度模型参数的估计 》中介绍的贝叶斯估计不同,没有先估计确定的 ,而是对所有可能的后验进行了积分,是 全贝叶斯方法

但大多数情况下这个 积分很难计算 的,除非后验有很好的形式(所以《参数方法——类密度模型参数的估计》中的方法,将参数归结到一点,不去计算这个积分)。

但贝叶斯估计还是有其独有的 优点 。首先先验帮助 忽略了不太可能的 值 。此外,不是在预测时使用单个 ,而是生成 可能的 值集合 ,并在预测时 全部使用 ,用可能性加权。

而最大后验(MAP)方法使用先验,则只利用了第一个优点。而对于极大似然(ML)方法,这两个优点都不具备。

对于 很多无法计算的情况,通过近似计算来处理 ,包括马尔科夫链蒙特卡洛抽样,拉普拉斯近似、变分近似。

考虑样本来自一元高斯分布, ,分布的参数 , 是需要估计的。样本似然是

对多元变量样本,与一元样本的方法相同,只是使用了多元高斯分布 。其中 是 精度矩阵

对于均值,使用多元高斯先验

对于精度矩阵,使用多元版本的伽马分布(又称Wishart分布)先验 。

同上面概率分布的参数一样,对函数参数的估计,同样将参数看做具有一种先验分布的随机变量。使用贝叶斯规则计算后验,再求积分。

考虑 线性回归模型 ,其中 , 是噪声的精度。

模型的参数是权重 ,记样本为 ,其中 , 。将样本记为输入矩阵和期望输出向量两部分 。

给定输入的输出有概率分布

贝叶斯估计 的情况下,为参数 定义一个高斯先验 。对于后验,可得到 。

其中 , 。

为了得到新输入 的输出 。

如果采用 最大后验估计 对参数做点估计,由于后验为高斯分布,则有

MAP等同于最大化后验的对数

而同样作为点估计的 极大似然估计 ,并没有利用先验信息。整体样本的对数似然为 ,其中第二项相对于参数是常数。

把似然的第一项展开成

最大似然估计要最大化对数似然,等价于最小化最后一项,即最小化误差的平方和的参数 。误差平方和为

关于 求导并令其等于零,可得到

对于 一般模型 ,不便于像线性模型一样求解最大似然和最大后验估计。但思想是类似地,一样可通过最小化误差平方和 求得 最小二乘估计子 ,来计算输入的输出 。

或采用最大后验作为参数估计,由(b)的形式可写出一个适用于一般函数的增广误差函数

该目标函数比误差平方和多了一项,在统计学中称之为 岭回归 。是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,使更为符合实际、更可靠的回归方法。对病态数据的拟合要强于最小二乘法。(对于线性模型来说,则避免(c)中 矩阵中某个元素的一个很小的变动,会引起最后计算结果误差很大。正如MAP的解(a)比ML的解(c)在对角线增加了阐述想 ,保证矩阵可逆。)

在《 多层感知器 》一节中的网络规模部分介绍的权重衰减(a),也有岭回归的形式,由第二项给每个 一个靠近0的趋势。它们的目的都是降低模型复杂度,是正则化方法。

前一部分假设噪声服从给定的正态分布, 。如果 也是未知的,那么也可以对它定义先验。同前文对高斯分布参数的贝叶斯估计一样,对精度 定义伽马先验 ,

进一步定义 基于 的先验 。

如果 , ,则如前一部分所讨论的。

参数 和 的共轭先验为正态-伽马先验:

可得后验

其中

这里采用 马尔科夫链蒙特卡洛抽样(MCMC) 来得到贝叶斯拟合。首先从 中抽取一个 值,然后从 抽取 。

这样得到一个从后验 中抽样的模型,通过抽取多个模型,并取这些模型的平均,作为 全贝叶斯积分的近似

对给定输入 ,使用参数 的MAP估计(a)来计算输出

这是对偶表示,其中 包含先验参数。如果像用支持向量机那样用训练数据表示参数,可以把预测输出写成输入和悬链数据的函数,我们可以把这表示为 。

其中

考虑到可以使用非线性基函数 映射到新空间,在新空间中拟合线性模型(《 核机器 》)。这种情况下,作为线性核(d)的推广,其中的 d 维 变为 k 维的 。

其中, , , 是 映射后的数据矩阵。这是 的空间中的对偶表示。

在《 监督学习——分类(基于判别式的方法) 》中介绍的逻辑斯蒂判别式,对两类问题,假定线性可分,有 。伯努利样本的对数似然为 。通过最大似然估计得到参数 的估计。

在贝叶斯方法中,假定参数的高斯先验 ,而后验的对数为

这个后验分布不再是高斯分布,并且不能精确地积分。这里使用 拉普拉斯近似