请问,在统计学中,R-squared误差指的是什么意思?

Python019

请问,在统计学中,R-squared误差指的是什么意思?,第1张

在线性回归以及广义线性回归中,R-squared误差的大小意味着模型的拟合度的好坏。

R-squared误差取值范围为0到1,这个值越接近1说明模型的拟合度越好。

在R语言中,对于一个线性回归r,可以使用函数summary(r)来查看r的各种参数,其中就包括这个拟合度。

不过,模型的好坏还有很多其他的评价标准,单单是拟合度好并不能说明这个模型是合适的。

R2是一种易于计算和非常直观的用于度量相关性的指标

我们中的大多数人已经熟悉了相关性和它的度量标准R,就是常说的Pearson相关系数。

如果相关系数R接近1或者-1,则说明这两个变量是密切相关的, 比如身高与体重。

其实R平方和R非常相似,但是R平方在理解上更容易。

例如:实际上当R=0.7时比0.5要好2倍,但是在数值上面并不直观。R2可以直接反映出R2=0.7优于R2=0.5的1.4倍。

R方一般用在回归模型用用于评估预测值和实际值的符合程度,R方的定义如下:变量x引起y变异的回归平方和占y变异总平方和的比率,也称为拟合优度

表达式:R2=SSR/SST=1-SSE/SST

决定系数反应了y的波动有多少百分比能被x的波动所描述,即表征依变数Y的变异中有多少百分比,可由控制的自变数X来解释.

举一个例子:我们用小鼠大小为X轴,Y轴代表小鼠体重, Y坐标越高代表小鼠体重越大。

在这里, 我们将平均值画成一条黑线,同时再根据数据拟合一条直线(蓝线)。

假设我们知道单个小鼠的大小,那么小鼠体重预测的最佳方法是用什么呢?

我们刚才画的蓝线是否比平均线能更好地解释数据?

如果是的话, 好了多少?

直观来看,看起来蓝线比平均值更好地贴合数据。我们如何量化这两条线的差异?

R2!!

下图是R2的计算公式:

方程中Var(mean)是数据与平均值相关的差异,实际数据值与其平均值的差的平方和

方程中Var(line)是蓝线与数据点之间的差异,实际数据值与蓝线对应点的数值差的平方和

所以, 这使得R2的值的范围是从0到1。

现在我们将通过一个例子来一步一步计算一下R2:

根据公式,我们可以计算得到R2=0.81=81%

也就是说, 小鼠的大小与重量的相关性能够解释总差异的81%,这意味着数据的大部分变化都可以由小鼠重量-大小的关系来解释。

再举另一个示例,我们比较两个可能不相关的变量:

Y轴依然是小鼠重量

X轴表示小鼠嗅探一块岩石的时间

与之前的计算一致, 得到Var(mean) = 32

然而, 我们计算蓝线与数据点差的平方和Var(line)时,得到了一个很大的值, 30

通过计算, 我们看到 R2= 0.06 = 6%

因此, 新拟合的线只比平均值多解释了6%的差异,也就是说, X与Y二者的相关性仅能解释总差异的6%

当有人说这个统计学计算R2 =0.9,你可以认为这两个变量之间的相关性非常好。数据变化的90%可以被解释。

R2 就是相关系数R的平方,当有人说统计显著的R = 0.9时,R2 =0.81,这两个变量解释了81%的数据与拟合直线间的差异。

同样,比较R=0.7与R=0.5哪个要好得多,如果我们把这些数字转换成R平方:

当R = 0.7时, R2 ≈0.5

当R=0.5时,R2 =0.25

用R平方很容易看出, 第一个相关性是第二个相关性的2倍!!

需要注意的是, R平方并不能表示相关性的方向(因为平方数不会小于0)。

1、RMSE(均方根误差)即标准误差:

假如数据在A1:Z1

标准方差用函数=STDEV(A1:Z1)

方差用函数=VARA(A1:Z1)

2、MRE(平均相对误差)

Excel/函数/统计/STDEV(Sd)

计算出标准偏差Sd值,然后除以平均数再×100%就可以了。

为了找到均方根误差,我们首先需要找到残差(也称为误差,我们需要对这些值均方根),然后需要计算这些残差的均方根。因此,如果我们有一个线性回归模型对象说M,则均方根误差可以找到为sqrt(mean(M $residuals ^ 2))。

示例

x1<-rnorm(500,50,5)

y1<-rnorm(500,50,2)

M1<-lm(y1~x1)

summary(M1)

输出结果

Call:

lm(formula = y1 ~ x1)

Residuals:

Min 1QMedian3QMax

-5.6621 -1.2257 -0.0272 1.4151 6.6421

Coefficients:

EstimateStd.Errort value Pr(>|t|)

(Intercept) 50.178943 0.915473 54.812 <2e-16 ***

x1 -0.002153 0.018241 -0.118 0.906

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.966 on 498 degrees of freedom

Multiple R-squared: 2.798e-05, Adjusted R-squared: -0.00198

F-statistic: 0.01393 on 1 and 498 DF, p-value: 0.9061

从模型M1中找到均方根误差-

示例

sqrt(mean(M1$residuals^2))

输出结果

[1] 1.961622

示例

x2<-rnorm(5000,125,21)

y2<-rnorm(5000,137,10)

M2<-lm(y2~x2)

summary(M2)

输出结果

Call:

lm(formula = y2 ~ x2)

Residuals:

Min 1QMedian3QMax

-37.425 -7.005 -0.231 6.836 36.627

Coefficients:

Estimate Std.Error t value Pr(>|t|)

(Intercept) 138.683501 0.851247 162.918 <2e-16 ***

x2 -0.014386 0.006735 -2.136 0.0327 *

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 10.06 on 4998 degrees of freedom

Multiple R-squared: 0.0009121, Adjusted R-squared: 0.0007122

F-statistic: 4.563 on 1 and 4998 DF, p-value: 0.03272

从模型M2中找到均方根误差:

示例

sqrt(mean(M2$residuals^2))

输出结果

[1] 10.05584

示例

x37<-rpois(500,5)

y3<-rpois(500,10)

M3<-lm(y3~x3)

summary(M3)

输出结果

Call:

lm(formula = y3 ~ x3)

Residuals:

Min 1QMedian3QMax

-7.9004 -1.9928 -0.2155 2.1921 9.3770

Coefficients:

EstimateStd.Error t value Pr(>|t|)

(Intercept) 10.17770 0.3233031.481<2e-16 ***

x3 -0.09244 0.06145-1.5040.133

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.027 on 498 degrees of freedom

Multiple R-squared: 0.004524, Adjusted R-squared: 0.002525

F-statistic: 2.263 on 1 and 498 DF, p-value: 0.1331

从模型M3查找均方根误差-

示例

sqrt(mean(M3$residuals^2))

输出结果

[1] 3.020734

示例

x4<-runif(50000,5,10)

y4<-runif(50000,2,10)

M4<-lm(y4~x4)

summary(M4)

输出结果

Call:

lm(formula = y4 ~ x4)

Residuals:

Min1Q Median 3QMax

-4.0007 -1.9934 -0.0063 1.9956 3.9995

Coefficients:

EstimateStd.Error t value Pr(>|t|)

(Intercept) 5.9994268 0.0546751 109.729 <2e-16 ***

x40.0001572 0.0071579 0.0220.982

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.309 on 49998 degrees of freedom

Multiple R-squared: 9.646e-09, Adjusted R-squared: -1.999e-05

F-statistic: 0.0004823 on 1 and 49998 DF, p-value: 0.9825

从模型M4找到均方根误差-

示例

sqrt(mean(M4$residuals^2))

输出结果

[1] 2.308586

示例

x5<-sample(5001:9999,100000,replace=TRUE)

y5<-sample(1000:9999,100000,replace=TRUE)

M5<-lm(y5~x5)

summary(M5)

输出结果

Call:

lm(formula = y5 ~ x5)

Residuals:

Min 1QMedian 3Q Max

-4495 -2242-42230 4512

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 5.504e+03 4.342e+01 126.765 <2e-16 ***

x5-1.891e-03 5.688e-03 -0.333 0.74

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2594 on 99998 degrees of freedom

Multiple R-squared: 1.106e-06, Adjusted R-squared: -8.895e-06

F-statistic: 0.1106 on 1 and 99998 DF, p-value: 0.7395

从模型M5中找到均方根误差<

示例

sqrt(mean(M5$residuals^2))

输出结果

[1] 2593.709