如何在R语言中使用Logistic回归模型

Python015

如何在R语言中使用Logistic回归模型,第1张

在日常学习或工作中经常会使用线性回归模型对某一事物进行预测,例如预测房价、身高、GDP、学生成绩等,发现这些被预测的变量都属于连续型变量。然而有些情况下,被预测变量可能是二元变量,即成功或失败、流失或不流失、涨或跌等,对于这类问题,线性回归将束手无策。这个时候就需要另一种回归方法进行预测,即Logistic回归。

在实际应用中,Logistic模型主要有三大用途:

1)寻找危险因素,找到某些影响因变量的"坏因素",一般可以通过优势比发现危险因素;

2)用于预测,可以预测某种情况发生的概率或可能性大小;

3)用于判别,判断某个新样本所属的类别。

Logistic模型实际上是一种回归模型,但这种模型又与普通的线性回归模型又有一定的区别:

1)Logistic回归模型的因变量为二分类变量;

2)该模型的因变量和自变量之间不存在线性关系;

3)一般线性回归模型中需要假设独立同分布、方差齐性等,而Logistic回归模型不需要;

4)Logistic回归没有关于自变量分布的假设条件,可以是连续变量、离散变量和虚拟变量;

5)由于因变量和自变量之间不存在线性关系,所以参数(偏回归系数)使用最大似然估计法计算。

logistic回归模型概述

广义线性回归是探索“响应变量的期望”与“自变量”的关系,以实现对非线性关系的某种拟合。这里面涉及到一个“连接函数”和一个“误差函数”,“响应变量的期望”经过连接函数作用后,与“自变量”存在线性关系。选取不同的“连接函数”与“误差函数”可以构造不同的广义回归模型。当误差函数取“二项分布”而连接函数取“logit函数”时,就是常见的“logistic回归模型”,在0-1响应的问题中得到了大量的应用。

Logistic回归主要通过构造一个重要的指标:发生比来判定因变量的类别。在这里我们引入概率的概念,把事件发生定义为Y=1,事件未发生定义为Y=0,那么事件发生的概率为p,事件未发生的概率为1-p,把p看成x的线性函数;

回归中,最常用的估计是最小二乘估计,因为使得p在[0,1]之间变换,最小二乘估计不太合适,有木有一种估计法能让p在趋近与0和1的时候变换缓慢一些(不敏感),这种变换是我们想要的,于是引入Logit变换,对p/(1-p)也就是发生与不发生的比值取对数,也称对数差异比。经过变换后,p对x就不是线性关系了。

投入产出模型按不同分类标志分成表1所示的各种类型。 静态投入产出开模型  表2是一种常用的静态投入产出开模型。它将整个国民经济分为n个部门。Xi表示第i部门的产值,Xij表示第j部门在生产过程中所消耗的第i部门产品的数量,Yi为第i部门最终产品的合计数,Dj为第j部门在生产过程中所消耗的固定资产价值,即固定资产折旧额,Vj为第j部门所支付的劳动报酬,Mj为第j部门所创造的社会纯收入数额,它由利润、税金等组成(i,j=1,2,…,n)。

投入产出表的横向反映了各部门产品按经济用途的消耗情况。各部门生产的总产品分为中间产品和最终产品两部分。中间产品指本时期内在生产领域尚需作进一步加工的产品,如炼钢用的生铁等。最终产品指本时期内在生产领域已经最终加工完毕可供社会消费和使用的产品。它包括四个部分:①供社会集体消费和居民个人消费的消费品;②新增固定资产,又分为生产性与非生产两类;③用于增加库存和国家储备的产品;④净出口产品。横向的平衡关系式为

Xij+Yi=Xi (i=1,2,…,n)

投入产出表的纵向反映各部门产品的价值构成。各部门总产值由生产资料转移价值(劳动对象的转移价值、固定资产折旧)和新创造价值两部分组成。新创造价值又可分为劳动报酬和社会纯收入两部分。纵向的平衡关系式为

Xij+Dj+Vj+Mj=Xj  (j=1,2,…,n)

在投入产出分析中要使用两个重要概念:直接消耗系数和完全消耗系数。①直接消耗系数:它是某个部门生产单位产品所消耗的各部门产品的数量。其计算公式为这里aij 表示第 j部门对第i部门的直接消耗系数。②完全消耗系数:部门之间除直接消耗外,还要通过中间产品消耗某一产品,这种消耗叫做间接消耗,而完全消耗系数是某个部门生产单位产品所需直接消耗和间接消耗的总和,其计算公式为(i,j=1,2,…,n)

式中bij表示第j部门产品对第i部门产品的完全消耗系数。等式右端第一项为直接消耗,第二项为第一次间接消耗,第三项为第二次间接消耗。上式可写成矩阵形式如下:

B=A+A+A+A+…

式中A={aij}和B={bij}分别表示直接消耗系数矩阵和完全消耗系数矩阵。因矩阵A的最大特征根之模小于1,因此A和B有如下关系:

B=(I-A)-I

动态投入产出模型  静态投入产出模型主要用来说明本时期的生产和消耗部门间的平衡关系和最终产品的去向。而动态投入产出模型则能较为具体地分析积累和扩大再生产的关系。因为本时期的生产增长与以前若干时期的投资情况有关。同样,以后若干时期的生产增长又对本时期积累和消费的比例提出一定的要求。因此,要求动态地确定逐期的投资与消费比例,从而根据经济增长的要求制订正确的经济政策。动态投入产出的模型很多,列昂捷夫动态投入产出模型的基本平衡关系式为

X-AX-埛凧=恸

式中埛为资本系数矩阵,凧为n维列向量,其元素凧j(t)为xj(t)的一阶导数。恸为最终净产品列向量。在最终产品中减去各部门产品中用作生产投资部分(增加固定资产和流动资产部分)即为最终净产品。恸主要包括作为居民个人和社会集体消费的消费品、非生产性积累、净出口等。这是一个线性齐次一阶常微分方程组。根据微分方程理论,其解是存在的。