怎样用r语言中做岭回归的程序包

2023-02-24 12:36:02Python022

怎样用r语言中做岭回归的程序包,第1张

（1）plot(lm.ridge(GDP~Consume+Investment+IO+Population+Jobless+Goods,

data=dat,lambda=seq(0,0.3,0.001))) # 和线性回归类似，这个plot可以画出岭迹图，lambda=seq(0,0.3,0.001)设置范围和间隔，可以观察岭迹图，人工选择，但是这样主观性较强。

（2）select(lm.ridge(GDP~Consume+Investment+IO+Population+Jobless+Goods,

data=dat,lambda=seq(0,0.3,0.001))) #利用select 函数找出最优岭参数lambda,会有三个值，任选一个即可。

lm.ridge(GDP~Consume+Investment+IO+Population+Jobless+Goods,

data=dat,lambda=0.09)#通过（1）或（2）把选取的lmbda 参数写到岭回归函数中去，在这里lambda=0.09。

ridge regression可以用来处理下面两类问题：一是数据点少于变量个数；二是变量间存在共线性。

当变量间存在共线性的时候，最小二乘回归得到的系数不稳定，方差很大。这是因为系数矩阵X与它的转置矩阵相乘得到的矩阵不能求得其逆矩阵，而ridge regression通过引入参数lambda，使得该问题得到解决。在R语言中，MASS包中的函数lm.ridge()可以很方便的完成。它的输入矩阵X始终为n x p 维，不管是否包含常数项。

Usage

lm.ridge(formula, data, subset, na.action, lambda = 0, model = FALSE,

x = FALSE, y = FALSE, contrasts = NULL, ...)

>install.packages("MASS")

>library('MASS')

>longley

>names(longley)[1] <- "y"

>lm.ridge(y ~ ., longley)

GNP Unemployed Armed.Forces Population Year Employed

2946.85636017 0.26352725 0.03648291 0.01116105 -1.73702984 -1.41879853 0.23128785

>plot(lm.ridge(y ~ ., longley, lambda = seq(0,0.1,0.001)))

>select(lm.ridge(y ~ ., longley, lambda = seq(0,0.1,0.0001)))

modified HKB estimator is 0.006836982

modified L-W estimator is 0.05267247

smallest value of GCV at 0.0057

岭回归可以下载相关模块，也可以自己编程来实现。大部分人都会选择后一种方法。这个主要是因为代码很简洁，很容易编写。代码如下：

INCLUDE’d:\spss20.0\Ridge Regression.sps’.

Ridgereg enter=X1 X2 X3

/dep=y

诺，就这么三行。第一行单引号里边填写你的spss安装目录。比如我的按在d盘下面，所以我就填d:\spss20.0，如果你的按在c盘，那就填C盘呗。然后目录后边那个ridge regression，是最小二乘平方的宏的调用。然后第二行X1，X2，X3的位置填写你的自变量的名字。有几个就填几个。中间用空格隔开。第三行y的位置填你的因变量。运行的时候，打开文件——新建——语法，进入语法编辑器窗口，输入上边的代码，然后点运行——全部就可以了。结果会有一个系数表，这个表的第一列是K值，第二列是决定系数，第三列往后是你的自变量。其中k值会从0开始增大，同时决定系数也会慢慢变小，最终趋于稳定。（岭回归舍弃了一定的信息，从而改善了多重共线性）要从这张表里边选取合适的k值，使决定系数尽量大，同时尽量稳定。选好k值就可以参照系数写出方程了。此外在岭回归里边是不会输出常数的。这也是和一般回归方法的一个不同之处。

你的系数矩阵线性自变量

# 上一篇：用JAVA怎么编写停车场管理系统源代码？

# 下一篇：不同范围的javabean的生命周期有什么不同