R语言泊松Poisson回归模型分析案例

Python019

R语言泊松Poisson回归模型分析案例,第1张

R语言泊松Poisson回归模型分析案例

这个问题涉及马蹄蟹研究的数据。研究中的每只雌性马蹄蟹都有一只雄性螃蟹贴在她的巢穴中。这项研究调查了影响雌蟹是否有其他男性居住在她附近的因素。被认为影响这一点的解释变量包括雌蟹的颜色(C),脊椎状况(S),体重(Wt)和甲壳宽度(W)。

数据文件:crab.txt。

我们将首先拟合仅具有一个自变量:宽度(W)的泊松回归模型

估计的模型是:$ log( hat { mu_i})$ = -3.30476 + 0.16405W ilog(μi^) = - 3.30476 + 0.16405W

估计的β= 0.164的ASE为0.01997,这是小的,并且该斜率在z值为8.216及其低p值的情况下在统计学上是显着的。

如果我们看一下W对Sa的散点图(见下文),我们可能会怀疑一些异常值

您可以考虑其他类型的残差,影响度量(如我们在线性回归中看到的)以及残差图。

以下是运行R代码其他部分的输出的一部分:

从上面的输出中,我们可以看到预测计数(“拟合”)和线性预测变量的值,即预期计数的对数值。

我们也可以看到,尽管预测是有意义的,但模型并不适合。考虑到剩余偏差统计值为567.88和171 df,p值为零,值/ DF = 567.88 / 171 = 3.321远大于1,因此该模型不适合。缺乏适合可能是由于缺少数据,协变量或过度分散。

更改模型

在上述模型中,我们检测到一个潜在的过分散问题,因为比例因子,例如残差偏差的值/ DF远大于1。

回想一下,过度分散的原因之一是异质性,其中每个协变量组合中的主体仍然差异很大。如果是这样的话,是否违背了Poisson回归模型的泊松模型的假设?

上述R程序的输出:

在这个模型中,随机分量在响应具有相同均值和方差的情况下不再具有泊松分布。根据给定的估计值(例如Pearson X 2 = 3.1822),随机分量的变化(响应)大约是平均值的三倍。

除了过度分散之外,如何忽略其他解释变量?我们可以通过添加其他变量来提高拟合度吗?

我们来比较一下这个输出和只有“W”作为预测的模型。我们将“虚拟变量”引入到模型中,以表示具有4级的颜色变量,其中4级作为参考级别。

此外,如果您运行anova(model.disp),从下面的输出中我们可以看到,在考虑宽度后,颜色几乎没有统计上显着的预测因子。

>anova(model.disp)

Df Deviance Resid。Df Resid。Dev

NULL 172 632.79

W 1 64.913 171 567.88

C1 1 3.130 170 564.75

C2 1 5.400 169 559.35

C3 1 0.004 168 559.34

此模型是否适合数据更好,是否适合过度分散?

R代码的这部分做以下更改:

将此输出的部分与上面的输出相比较,我们将颜色用作分类预测器。我们这样做只是为了记住同一个变量的不同编码会给你不同的拟合和估计值。

现在估计的模型是什么?$ log { hat { mu_i}} $ = -2.520 + 0.1496W - 0.1694C。logμi^ = -2.520 + 0.1496W - 0.1694C。

由于添加协变量没有帮助,过度分散似乎是由于异质性。我们可以用这些数据做些什么吗?

数据分组

我们考虑按宽度分组数据,然后拟合泊松回归模型。这里是按W排序的数据。

数据已分成8个区间,如下面的(分组)数据所示

请注意,“NumCases”是位于特定间隔内的雌性螃蟹的数量,这些雌性螃蟹的宽度由后面限定。“AverWt”是该分组内的平均背宽,“AverSa”是男性卫星总数除以组内的雌蟹总数,“SDSa”和“VarSa”是标准偏差,即“AverSa”的变化。

更改模型

我们还创建了一个变量lcases = log(个案),其中记录了个案数量的对数。这是输出。

模型现在比以前更好还是更差?它显然更适合。例如,剩余偏差统计值的值/ DF现在是1.0861。

残差分析也显示了良好的拟合度。

我们来比较下图中的观察值和拟合值(预测值):

R中的最后两个陈述用于证明我们可以用速率数据的身份链接来拟合泊松回归模型。请注意,该模型不适合分组数据,因为与先前的模型相比,残差偏差统计的值/ DF约为11.649。

1、洛伦兹曲线

洛伦兹曲线(Lorenz curve),也译为“劳伦兹曲线”。指在一个总体(国家、地区)内,以“最贫穷的人口计算起一直到最富有人口”的人口百分比对应各个人口百分比的收入百分比的点组成的曲线。

为了研究国民收入在国民之间的分配问题,美国统计学家M.O.洛伦兹(Max Otto Lorenz,1876- 1959)1907年提出了著名的洛伦兹曲线。

洛伦兹曲线用以比较和分析一个国家在不同时代或者不同国家在同一时代的财富不平等,该曲线作为一个总结收入和财富分配信息的便利的图形方法得到广泛应用。通过洛伦兹曲线,可以直观地看到一个国家收入分配平等或不平等的状况。

洛伦兹曲线的弯曲程度有重要意义。一般来讲,它反映了收入分配的不平等程度。弯曲程度越大,收入分配越不平等,反之亦然。

2、基尼系数

基尼系数是指国际上通用的、用以衡量一个国家或地区居民收入差距的常用指标,最早由意大利统计与社会学家Corrado Gini在1912年提出。

基尼系数最大为“1”,最小等于“0”。基尼系数越接近0表明收入分配越是趋向平等。国际惯例把0.2以下视为收入绝对平均,0.2-0.3视为收入比较平均;0.3-0.4视为收入相对合理;0.4-0.5视为收入差距较大,当基尼系数达到0.5以上时,则表示收入悬殊。

国内不少学者对基尼系数的具体计算方法作了探索,提出了十多个不同的计算公式。山西农业大学经贸学院张建华先生提出了一个简便易用的公式:

假定一定数量的人口按收入由低到高顺序排队,分为人数相等的n组,从第1组到第i组人口累计收入占全部人口总收入的比重为wi,则说明:该公式是利用定积分的定义将对洛伦茨曲线的积分分成n个等高梯形的面积之和得到的。

3、我国的基尼系数偏大,说明我国的收入差距仍然过大,贫富差距较大,尚未达到理想的平均水平。

扩展资料

洛伦兹曲线和基尼系数的关系是:

将洛伦兹曲线与45度线之间的部分(A)叫做“不平等面积”,当收入分配达到完全不平等时,洛伦兹曲线与45度线之间的面积(A+B)叫做“完全不平等面积”。不平等面积与完全不平等面积之比,就是基尼系数,是衡量一国贫富差距的标准。

因此 ,基尼系数也可以通过洛伦兹曲线的作图和积分求解,公式为G=A/(A+B)。从公式上推断,基尼系数不会大于1,也不会小于零。

参考资料来源:百度百科-基尼系数

参考资料来源:百度百科-洛伦兹曲线