在实际应用中,Logistic模型主要有三大用途:
1)寻找危险因素,找到某些影响因变量的"坏因素",一般可以通过优势比发现危险因素;
2)用于预测,可以预测某种情况发生的概率或可能性大小;
3)用于判别,判断某个新样本所属的类别。
Logistic模型实际上是一种回归模型,但这种模型又与普通的线性回归模型又有一定的区别:
1)Logistic回归模型的因变量为二分类变量;
2)该模型的因变量和自变量之间不存在线性关系;
3)一般线性回归模型中需要假设独立同分布、方差齐性等,而Logistic回归模型不需要;
4)Logistic回归没有关于自变量分布的假设条件,可以是连续变量、离散变量和虚拟变量;
5)由于因变量和自变量之间不存在线性关系,所以参数(偏回归系数)使用最大似然估计法计算。
logistic回归模型概述
广义线性回归是探索“响应变量的期望”与“自变量”的关系,以实现对非线性关系的某种拟合。这里面涉及到一个“连接函数”和一个“误差函数”,“响应变量的期望”经过连接函数作用后,与“自变量”存在线性关系。选取不同的“连接函数”与“误差函数”可以构造不同的广义回归模型。当误差函数取“二项分布”而连接函数取“logit函数”时,就是常见的“logistic回归模型”,在0-1响应的问题中得到了大量的应用。
Logistic回归主要通过构造一个重要的指标:发生比来判定因变量的类别。在这里我们引入概率的概念,把事件发生定义为Y=1,事件未发生定义为Y=0,那么事件发生的概率为p,事件未发生的概率为1-p,把p看成x的线性函数;
回归中,最常用的估计是最小二乘估计,因为使得p在[0,1]之间变换,最小二乘估计不太合适,有木有一种估计法能让p在趋近与0和1的时候变换缓慢一些(不敏感),这种变换是我们想要的,于是引入Logit变换,对p/(1-p)也就是发生与不发生的比值取对数,也称对数差异比。经过变换后,p对x就不是线性关系了。
接着上一篇文章 R语言:表格的线图转化 继续练习,这次是直方图。
前段时间在视频课程学习过直方图案例,有一个citysales表格,表示3种产品,在5个城市的销量。
运用的是“barplot”命令,程序如下:
citysales<-read.csv("citysales.csv")
x<-barplot(as.matrix(citysales[,2:4]),beside=TRUE,
legend.text=citysales$City,args.legend=list(bty="n",horiz=TRUE),
col=brewer.pal(5,"Set1"),border="black",ylim=c(0,100))
自己用来练习的表格,还是上次那个。
因为这次想用案例中的色库,所以安装了“RColorBrewer”包。
然后按照案例中语句,写了一下。颜色参数有一点改动。
barplot(as.matrix(mydata[,2:3]),las=2,beside=TRUE,col=brewer.pal(2,"Set2"))
噫,为什么2006一列,2016一列?看回案例,barplot命令是根据列分组的,所以这里也根据了两个年份分组。
这样的图形不是我想要的,所以用 t命令 把mydata的行列互相置换了一下。
b<-as.matrix(mydata[,2:3]) c<-t(b)
barplot(c,las=2,beside=TRUE,col=brewer.pal(2,"Set2"))
这次出现的图形就对了,但是x轴的图标不对。区域名消失了。
很奇怪的是,如果整个mydata置换,就会把整个matrix都变成字符,barplot就不能只打印其中的两列,必须置换成数值
图形跟上图一样,就是没有x轴的数字了。
如果索性在excel表里手动置换行和列,也是可以的。
barplot(as.matrix(mydata2[,2:16]),las=2,beside=TRUE,col=brewer.pal(2,"Set2"),ylim=c(0,95000))
如果去掉“beside=TRUE”语句,则形成层叠图。再加上增长幅度曲线rate。但是因为增长幅度数值相对于几万的房价比较小,所以乘以5000倍才能看得见。
lines(mydata$rate*5000,col="gold")
这里又出现了一个缺点,涨幅曲线和柱状图差了一个,当然在excel表是完全对应的。还没有找出原因。望各位大神指教。
这次的练习:
1.条形图的转化
2.两种图形的叠加
3.RColorBrew包及相关命令
不明白/没做出来的地方
1.用barplot打印matrix的格式
2.matrix怎么加表头
3.Line和条形图的对应