R语言学习DAY04:回归分析

Python012

R语言学习DAY04:回归分析,第1张

R本身是一门统计语言,主要用于统计分析,前面的语法部分算是基础,接下来开始进入统计模型应用。首先从最常用的回归分析说起。

有关线性回归分析模型的基本假定需要注意:1)关于随机干扰项的高斯-马尔科夫定理;2)关于自变量的:不存在共线性;3)关于模型的:模型设定正确。

用 glm 函数建立广义线性模型,用参数 family 指定分布类型,logistic模型指定为binomial

用 predict 函数进行预测, predict(model, data, type = 'response'

此外,还可以用 mlogit 包中的 mlogit 函数做多分类变量logistic回归, rms 包中的 lrm 函数做顺序变量logistic回归, glmnet 包中的 glmnet 函数做基于正则化的logistic回归

横截面数据回归经典方法

quantreg 分位数回归

MASS  BOX-COX变换

survival 生存函数、COX比例危险回归模型

mfp  COX比例危险回归模型多重分数多项式

car 可以检查vif

ridge 岭回归

lars  lasso回归

msgps adaptive lasso

pls 偏最小二乘

横截面数据 回归机器学习 方法

rpart.plot 画回归树

mboost  boosting回归

ipred  bagging回归

randomForest 随机森林回归

e1071  or kernlab  SVR支持向量机回归

nnet+caret  or neuralnet 神经网络

横截面数据 分类 经典方法

glm( ) 广义线性模型

MASS 的 lda( ) or   mda 的 mda( ) or   fda 的 fda( ) 线性判别

横截面数据 分类机器学习 方法

rpart.plot 画分类树

adabag  adaboost分类、bagging分类

randomForest 随机森林分类

e1071  or kernlab  SVR支持向量机分类

kknn 最近邻分类

nnet 神经网络分类

横截面数据 计数或有序因变量

Possion 散布问题(方差不等于均值):

dglm 双广义线性模型(Tweedie分布)

MASS 的 glm.nb( ) (负二项分布)

pscl 的 zeroinfl( ) 零膨胀计数数据模型

rminer 支持向量机

mlogit 多项logit模型

MASS 的 loglm( )  or nnet 的 multinom( ) 多项分布对数线性模型

MASS 的 polr( )  or VGAM 的 vglm( ) 多项分布对数线性模型

纵向数据:多水平模型、面板数据

lme4 的 lmer( )  or nlme 的 lme( ) 线性随机效应混合模型

REEMtree 拟合固定效应部分的决策树

coxme  cox随机效应分析

JM 联合模型

plm 拟合面板数据

多元分析

factanal( ) 因子分析

cluster 分层聚类

ICGE  INCA指数

ggmap 画地图

NbClust 一系列聚类方法

CCA 典型相关分析

MASS 对应分析

以下为非经典多元数据分析

FactoMineR 主成分分析、对应分析(补充元素作为测试集);多重对应分析(可以包含数量变量和分类变量)、多重因子分析、分层多重因子分析、基于主成分分析的分层聚类

多元数据的关联规则分析

arules 关联规则分析

路径建模数据的PLS分析

plspm 的函数 plspm( ) 偏最小二乘

lavvan 加协方差关系