举个例子:
一般人在身高相等的情况下,血压收缩压Y与体重X1和年龄X2有关,抽取13组成年人数据(如下图),构建Y与X1、X2的线性回归关系。
1.先创建一个数据框blood:
blood<-data.frame(
X1=c(76,91.5,85.5,82.5,79,80.5,74.5,79,85,76.5,82,95,92.5),
X2=c(50,20,20,30,30,50,60,50,40,55,40,40,20),
Y=c(120,141,124,126,117,125,123,125,132,123,132,155,147)
)
2.拟合线性回归:
lm.sol<-lm(Y~X1+X2,data=blood)
提取模型计算结果
summary(lm.sol)
这里说一下含义:
1、在计算结果的第一部分(call)列出了相应的回归模型公式;
2、第二部分(Residuals)列出了残差的最小值点、1/4分位点、3/4分位点、最大值点;
3、第三方部分(Coefficients)Estimate表示回归方程参数的估计,std.Error表示回归参数的标准差,t value 为t值,Pr(>|t|)表示p值
说明一下:***表示极为显著,**表示高度显著,*表示显著,.表示不太显著,没有记号表示不显著
4、第四部分(Residual standard error)表示残差的标准差,(F-statistic)表示F的统计量
通过上面的结果可以看出回归模型:Y=2.13656X1+0.40022X2-62.96336
我们根据得出的回归模型进行预测
例如:预测体重X1=100,年龄X2=40的血压值Y
newdata<-data.frame(X1=100,X2=40)
pre<-predict(lm.sol,newdata,interval="prediction",level=0.95)
pre
从结果可以预测值Y166.7011和预测值Y的区间[157.2417,176,1605]
r语言中残差与回归值的残差图r语言中残差与回归值的残差图_R语言基础-数据分析及常见数据分析方法
weixin_39953102
原创
关注
1点赞·7168人阅读
R表达式中常用的符号
残差(Residuals)
残差是真实值与预测值之间的差,五个分位的值越小模型越精确
系数项与截距项(Coefficients &Intercept)和P值指标
残差标准误(Residual standard error)
残差的标准误差,越小越好
R方判定系数
模型拟合的质量判定指标,取值在0-1之间,值越大越好
Multiple R-squared: 0.991 表示该模型能解释99.1%的数据。
F统计量(F-statistic)
说明模型是否显著,值越小越好,说明模型越显著
判断模型是否适合的一般规则
先看F统计量是否小于0.05,如果小于0.05,再看R方判定系数。
*线性回归(解决一元多次)
回归(regression),通常指那些用一个或多个预测变量,也称自变量或解释变量来预测响应变量,也称为因变量、校标变量或结果变量的方法。
1.回归分析类型
1、RMSE(均方根误差)即标准误差:假如数据在A1:Z1
标准方差用函数=STDEV(A1:Z1)
方差用函数=VARA(A1:Z1)
2、MRE(平均相对误差)
Excel/函数/统计/STDEV(Sd)
计算出标准偏差Sd值,然后除以平均数再×100%就可以了。
为了找到均方根误差,我们首先需要找到残差(也称为误差,我们需要对这些值均方根),然后需要计算这些残差的均方根。因此,如果我们有一个线性回归模型对象说M,则均方根误差可以找到为sqrt(mean(M $residuals ^ 2))。
示例
x1<-rnorm(500,50,5)
y1<-rnorm(500,50,2)
M1<-lm(y1~x1)
summary(M1)
输出结果
Call:
lm(formula = y1 ~ x1)
Residuals:
Min 1QMedian3QMax
-5.6621 -1.2257 -0.0272 1.4151 6.6421
Coefficients:
EstimateStd.Errort value Pr(>|t|)
(Intercept) 50.178943 0.915473 54.812 <2e-16 ***
x1 -0.002153 0.018241 -0.118 0.906
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.966 on 498 degrees of freedom
Multiple R-squared: 2.798e-05, Adjusted R-squared: -0.00198
F-statistic: 0.01393 on 1 and 498 DF, p-value: 0.9061
从模型M1中找到均方根误差-
示例
sqrt(mean(M1$residuals^2))
输出结果
[1] 1.961622
示例
x2<-rnorm(5000,125,21)
y2<-rnorm(5000,137,10)
M2<-lm(y2~x2)
summary(M2)
输出结果
Call:
lm(formula = y2 ~ x2)
Residuals:
Min 1QMedian3QMax
-37.425 -7.005 -0.231 6.836 36.627
Coefficients:
Estimate Std.Error t value Pr(>|t|)
(Intercept) 138.683501 0.851247 162.918 <2e-16 ***
x2 -0.014386 0.006735 -2.136 0.0327 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 10.06 on 4998 degrees of freedom
Multiple R-squared: 0.0009121, Adjusted R-squared: 0.0007122
F-statistic: 4.563 on 1 and 4998 DF, p-value: 0.03272
从模型M2中找到均方根误差:
示例
sqrt(mean(M2$residuals^2))
输出结果
[1] 10.05584
示例
x37<-rpois(500,5)
y3<-rpois(500,10)
M3<-lm(y3~x3)
summary(M3)
输出结果
Call:
lm(formula = y3 ~ x3)
Residuals:
Min 1QMedian3QMax
-7.9004 -1.9928 -0.2155 2.1921 9.3770
Coefficients:
EstimateStd.Error t value Pr(>|t|)
(Intercept) 10.17770 0.3233031.481<2e-16 ***
x3 -0.09244 0.06145-1.5040.133
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 3.027 on 498 degrees of freedom
Multiple R-squared: 0.004524, Adjusted R-squared: 0.002525
F-statistic: 2.263 on 1 and 498 DF, p-value: 0.1331
从模型M3查找均方根误差-
示例
sqrt(mean(M3$residuals^2))
输出结果
[1] 3.020734
示例
x4<-runif(50000,5,10)
y4<-runif(50000,2,10)
M4<-lm(y4~x4)
summary(M4)
输出结果
Call:
lm(formula = y4 ~ x4)
Residuals:
Min1Q Median 3QMax
-4.0007 -1.9934 -0.0063 1.9956 3.9995
Coefficients:
EstimateStd.Error t value Pr(>|t|)
(Intercept) 5.9994268 0.0546751 109.729 <2e-16 ***
x40.0001572 0.0071579 0.0220.982
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 2.309 on 49998 degrees of freedom
Multiple R-squared: 9.646e-09, Adjusted R-squared: -1.999e-05
F-statistic: 0.0004823 on 1 and 49998 DF, p-value: 0.9825
从模型M4找到均方根误差-
示例
sqrt(mean(M4$residuals^2))
输出结果
[1] 2.308586
示例
x5<-sample(5001:9999,100000,replace=TRUE)
y5<-sample(1000:9999,100000,replace=TRUE)
M5<-lm(y5~x5)
summary(M5)
输出结果
Call:
lm(formula = y5 ~ x5)
Residuals:
Min 1QMedian 3Q Max
-4495 -2242-42230 4512
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.504e+03 4.342e+01 126.765 <2e-16 ***
x5-1.891e-03 5.688e-03 -0.333 0.74
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 2594 on 99998 degrees of freedom
Multiple R-squared: 1.106e-06, Adjusted R-squared: -8.895e-06
F-statistic: 0.1106 on 1 and 99998 DF, p-value: 0.7395
从模型M5中找到均方根误差<
示例
sqrt(mean(M5$residuals^2))
输出结果
[1] 2593.709