r语言RMSE函数是哪个程序包里面的

2023-02-27 00:39:01Python013

r语言RMSE函数是哪个程序包里面的,第1张

你好，帮你谷歌了一下，其中R包‘Metrics’里有这个函数：

另外在R包‘hydroGOF’里也有一个类似的计算函数nrmse的函数：

。

1、RMSE（均方根误差）即标准误差：

假如数据在A1：Z1

标准方差用函数=STDEV（A1:Z1）

方差用函数=VARA（A1:Z1）

2、MRE（平均相对误差）

Excel/函数/统计/STDEV（Sd）

计算出标准偏差Sd值，然后除以平均数再×100％就可以了。

为了找到均方根误差，我们首先需要找到残差（也称为误差，我们需要对这些值均方根），然后需要计算这些残差的均方根。因此，如果我们有一个线性回归模型对象说M，则均方根误差可以找到为sqrt（mean（M $residuals ^ 2））。

示例

x1<-rnorm(500,50,5)

y1<-rnorm(500,50,2)

M1<-lm(y1~x1)

summary(M1)

输出结果

Call:

lm(formula = y1 ~ x1)

Residuals:

Min 1QMedian3QMax

-5.6621 -1.2257 -0.0272 1.4151 6.6421

Coefficients:

EstimateStd.Errort value Pr(>|t|)

(Intercept) 50.178943 0.915473 54.812 <2e-16 ***

x1 -0.002153 0.018241 -0.118 0.906

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.966 on 498 degrees of freedom

Multiple R-squared: 2.798e-05, Adjusted R-squared: -0.00198

F-statistic: 0.01393 on 1 and 498 DF, p-value: 0.9061

从模型M1中找到均方根误差-

示例

sqrt(mean(M1$residuals^2))

输出结果

[1] 1.961622

示例

x2<-rnorm(5000,125,21)

y2<-rnorm(5000,137,10)

M2<-lm(y2~x2)

summary(M2)

输出结果

Call:

lm(formula = y2 ~ x2)

Residuals:

Min 1QMedian3QMax

-37.425 -7.005 -0.231 6.836 36.627

Coefficients:

Estimate Std.Error t value Pr(>|t|)

(Intercept) 138.683501 0.851247 162.918 <2e-16 ***

x2 -0.014386 0.006735 -2.136 0.0327 *

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 10.06 on 4998 degrees of freedom

Multiple R-squared: 0.0009121, Adjusted R-squared: 0.0007122

F-statistic: 4.563 on 1 and 4998 DF, p-value: 0.03272

从模型M2中找到均方根误差：

示例

sqrt(mean(M2$residuals^2))

输出结果

[1] 10.05584

示例

x37<-rpois(500,5)

y3<-rpois(500,10)

M3<-lm(y3~x3)

summary(M3)

输出结果

Call:

lm(formula = y3 ~ x3)

Residuals:

Min 1QMedian3QMax

-7.9004 -1.9928 -0.2155 2.1921 9.3770

Coefficients:

EstimateStd.Error t value Pr(>|t|)

(Intercept) 10.17770 0.3233031.481<2e-16 ***

x3 -0.09244 0.06145-1.5040.133

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.027 on 498 degrees of freedom

Multiple R-squared: 0.004524, Adjusted R-squared: 0.002525

F-statistic: 2.263 on 1 and 498 DF, p-value: 0.1331

从模型M3查找均方根误差-

示例

sqrt(mean(M3$residuals^2))

输出结果

[1] 3.020734

示例

x4<-runif(50000,5,10)

y4<-runif(50000,2,10)

M4<-lm(y4~x4)

summary(M4)

输出结果

Call:

lm(formula = y4 ~ x4)

Residuals:

Min1Q Median 3QMax

-4.0007 -1.9934 -0.0063 1.9956 3.9995

Coefficients:

EstimateStd.Error t value Pr(>|t|)

(Intercept) 5.9994268 0.0546751 109.729 <2e-16 ***

x40.0001572 0.0071579 0.0220.982

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.309 on 49998 degrees of freedom

Multiple R-squared: 9.646e-09, Adjusted R-squared: -1.999e-05

F-statistic: 0.0004823 on 1 and 49998 DF, p-value: 0.9825

从模型M4找到均方根误差-

示例

sqrt(mean(M4$residuals^2))

输出结果

[1] 2.308586

示例

x5<-sample(5001:9999,100000,replace=TRUE)

y5<-sample(1000:9999,100000,replace=TRUE)

M5<-lm(y5~x5)

summary(M5)

输出结果

Call:

lm(formula = y5 ~ x5)

Residuals:

Min 1QMedian 3Q Max

-4495 -2242-42230 4512

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 5.504e+03 4.342e+01 126.765 <2e-16 ***

x5-1.891e-03 5.688e-03 -0.333 0.74

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2594 on 99998 degrees of freedom

Multiple R-squared: 1.106e-06, Adjusted R-squared: -8.895e-06

F-statistic: 0.1106 on 1 and 99998 DF, p-value: 0.7395

从模型M5中找到均方根误差<

示例

sqrt(mean(M5$residuals^2))

输出结果

[1] 2593.709

机器学习模型评价指标及R实现

1.ROC曲线

考虑一个二分问题，即将实例分成正类（positive）或负类（negative）。对一个二分问题来说，会出现四种情况。如果一个实例是正类并且也被预测成正类，即为真正类（True positive）,如果实例是负类被预测成正类，称之为假正类（False positive）。相应地，如果实例是负类被预测成负类，称之为真负类（True negative）,正类被预测成负类则为假负类（false negative）。

列联表如下表所示，1代表正类，0代表负类。

真正类率(true positive rate ,TPR), 也称为 Sensitivity，计算公式为TPR=TP/ (TP+ FN)，刻画的是分类器所识别出的正实例占所有正实例的比例。

假正类率(false positive rate, FPR),计算公式为FPR= FP / (FP + TN)，计算的是分类器错认为正类的负实例占所有负实例的比例。

真负类率（True Negative Rate，TNR），也称为specificity,计算公式为TNR=TN/ (FP+ TN) = 1 - FPR。在一个二分类模型中，对于所得到的连续结果，假设已确定一个阈值，比如说 0.6，大于这个值的实例划归为正类，小于这个值则划到负类中。如果减小阈值，减到0.5，固然能识别出更多的正类，也就是提高了识别出的正例占所有正例的比例，即TPR，但同时也将更多的负实例当作了正实例，即提高了FPR。为了形象化这一变化，在此引入ROC。

ROC曲线正是由两个变量1-specificity(x轴) 和 Sensitivity(y轴)绘制的，其中1-specificity为FPR，Sensitivity为TPR。随着阈值的改变，就能得到每个阈值所对应的1-specificity和Sensitivity，最后绘制成图像。

该图像的面积如果越接近1，那么我们则认为该分类器效果越好。从直觉上来说，假设我们的预测全部100%正确，那么不管阈值怎么变（除了阈值等于0和1时），我们的Sensitivity（真正类）率永远等于1，1-specificity（1-真负类率）永远等于0，所以该图就是个正方形，面积为1，效果最好。

样例数据集：

library(ROCR)

data(ROCR.simple)

ROCR.simple<-as.data.frame(ROCR.simple)

head(ROCR.simple)

# predictions labels

# 1 0.6125478 1

# 2 0.3642710 1

# 3 0.4321361 0

# 4 0.1402911 0

# 5 0.3848959 0

# 6 0.2444155 1

绘制ROC图：

pred <- prediction(ROCR.simple$predictions, ROCR.simple$labels)

perf <- performance(pred,"tpr","fpr")

plot(perf,colorize=TRUE)

2.AUC值

AUC值就是ROC曲线下的面积，可以通过以下代码计算：

pred <- prediction(ROCR.simple$predictions, ROCR.simple$labels)

auc.tmp <- performance(pred,"auc")

auc <- as.numeric([email protected])

3.Recall-Precision（PR）曲线

同样是一个二分类的模型的列联表，我们可以定义：

然后我们通过计算不同的阈值，以Recall为X轴，Precision为Y轴绘制图像。

PR图可以有这样的应用，引用一个例子[1]:

1. 地震的预测

对于地震的预测，我们希望的是RECALL非常高，也就是说每次地震我们都希望预测出来。这个时候我们可以牺牲PRECISION。情愿发出1000次警报，把10次地震都预测正确了；也不要预测100次对了8次漏了两次。

2. 嫌疑人定罪

基于不错怪一个好人的原则，对于嫌疑人的定罪我们希望是非常准确的。及时有时候放过了一些罪犯（recall低），但也是值得的。

对于分类器来说，本质上是给一个概率，此时，我们再选择一个CUTOFF点（阀值），高于这个点的判正，低于的判负。那么这个点的选择就需要结合你的具体场景去选择。反过来，场景会决定训练模型时的标准，比如第一个场景中，我们就只看RECALL=99.9999%（地震全中）时的PRECISION，其他指标就变得没有了意义。

绘制代码：

pred <- prediction(ROCR.simple$predictions, ROCR.simple$labels)

RP.perf <- performance(pred, "prec", "rec")

plot (RP.perf)

#查看阈值为0.1，0.5，0.9下的召回率和精确率

plot(RP.perf, colorize=T, colorkey.pos="top",

print.cutoffs.at=c(0.1,0.5,0.9), text.cex=1,

text.adj=c(1.2, 1.2), lwd=2)

一般这曲线越靠上，则认为模型越好。对于这个曲线的评价，我们可以使用F分数来描述它。就像ROC使用AUC来描述一样。

4.F1分数

Fβ

分数定义如下：