回归分析 | R语言 -- 多元线性回归

2023-02-25 15:53:02Python012

回归分析 | R语言 -- 多元线性回归,第1张

多元线性回归 是简单线性回归的扩展，用于基于多个不同的预测变量（x）预测结果变量（y）。

例如，对于三个预测变量（x），y的预测由以下等式表示： y = b0 + b1*x1 + b2*x2 + b3*x3

回归贝塔系数测量每个预测变量与结果之间的关联。“ b_j”可以解释为“ x_j”每增加一个单位对y的平均影响，同时保持所有其他预测变量不变。

在本节中，依然使用 datarium 包中的 marketing 数据集，我们将建立一个多元回归模型，根据在三种广告媒体（youtube，facebook和报纸）上投入的预算来预测销售。计算公式如下： sales = b0 + b1*youtube + b2*facebook + b3*newspaper

您可以如下计算R中的多个回归模型系数：

请注意，如果您的数据中包含许多预测变量，则可以使用 ~. 以下命令将模型中的所有可用变量简单地包括在内：

从上面的输出中，系数表显示β系数估计值及其显着性水平。列为：

如前所述，您可以使用R函数轻松进行预测 predict() ：

在使用模型进行预测之前，您需要评估模型的统计显着性。通过显示模型的统计摘要，可以轻松地进行检查。

显示模型的统计摘要，如下所示：

摘要输出显示6个组件，包括：

解释多元回归分析的第一步是在模型摘要的底部检查F统计量和关联的p值。

在我们的示例中，可以看出F统计量的p值<2.2e-16，这是非常重要的。这意味着 至少一个预测变量与结果变量显着相关 。

要查看哪些预测变量很重要，您可以检查系数表，该表显示了回归beta系数和相关的t统计p值的估计。

对于给定的预测变量，t统计量评估预测变量和结果变量之间是否存在显着关联，即，预测变量的beta系数是否显着不同于零。

可以看出，youtube和facebook广告预算的变化与销售的变化显着相关，而报纸预算的变化与销售却没有显着相关。

对于给定的预测变量，系数（b）可以解释为预测变量增加一个单位，同时保持所有其他预测变量固定的对y的平均影响。

例如，对于固定数量的youtube和报纸广告预算，在Facebook广告上花费额外的1000美元，平均可以使销售额增加大约0.1885 * 1000 = 189个销售单位。

youtube系数表明，在所有其他预测变量保持不变的情况下，youtube广告预算每增加1000美元，我们平均可以预期增加0.045 * 1000 = 45个销售单位。

我们发现报纸在多元回归模型中并不重要。这意味着，对于固定数量的youtube和报纸广告预算，报纸广告预算的变化不会显着影响销售单位。

由于报纸变量不重要，因此可以 将其从模型中删除 ，以提高模型精度：

最后，我们的模型公式可以写成如下：。 sales = 3.43+ 0.045*youtube + 0.187*facebook

一旦确定至少一个预测变量与结果显着相关，就应该通过检查模型对数据的拟合程度来继续诊断。此过程也称为拟合优度

可以使用以下三个数量来评估线性回归拟合的整体质量，这些数量显示在模型摘要中：

与预测误差相对应的RSE（或模型 sigma ）大致代表模型观察到的结果值和预测值之间的平均差。RSE越低，模型就越适合我们的数据。

将RSE除以结果变量的平均值将为您提供预测误差率，该误差率应尽可能小。

在我们的示例中，仅使用youtube和facebook预测变量，RSE = 2.11，这意味着观察到的销售值与预测值的平均偏差约为2.11个单位。

这对应于2.11 / mean（train.data $ sales）= 2.11 / 16.77 = 13％的错误率，这很低。

R平方（R2）的范围是0到1，代表结果变量中的变化比例，可以用模型预测变量来解释。

对于简单的线性回归，R2是结果与预测变量之间的皮尔森相关系数的平方。在多元线性回归中，R2表示观察到的结果值与预测值之间的相关系数。

R2衡量模型拟合数据的程度。R2越高，模型越好。然而，R2的一个问题是，即使将更多变量添加到模型中，R2总是会增加，即使这些变量与结果之间的关联性很小（James等，2014）。解决方案是通过考虑预测变量的数量来调整R2。

摘要输出中“已调整的R平方”值中的调整是对预测模型中包含的x变量数量的校正。

因此，您应该主要考虑调整后的R平方，对于更多数量的预测变量，它是受罚的R2。

在我们的示例中，调整后的R2为0.88，这很好。

回想一下，F统计量给出了模型的整体重要性。它评估至少一个预测变量是否具有非零系数。

在简单的线性回归中，此检验并不是真正有趣的事情，因为它只是复制了系数表中可用的t检验给出的信息。

一旦我们开始在多元线性回归中使用多个预测变量，F统计量就变得更加重要。

大的F统计量将对应于统计上显着的p值（p <0.05）。在我们的示例中，F统计量644产生的p值为1.46e-42，这是非常重要的。

我们将使用测试数据进行预测，以评估回归模型的性能。

步骤如下：

从上面的输出中，R2为 0.9281111 ，这意味着观察到的结果值与预测的结果值高度相关，这非常好。

预测误差RMSE为 1.612069 ，表示误差率为 1.612069 / mean(testData $ sales) = 1.612069/ 15.567 = 10.35 ％，这很好。

本章介绍了线性回归的基础，并提供了R中用于计算简单和多个线性回归模型的实例。我们还描述了如何评估模型的性能以进行预测。

在日常学习或工作中经常会使用线性回归模型对某一事物进行预测，例如预测房价、身高、GDP、学生成绩等，发现这些被预测的变量都属于连续型变量。然而有些情况下，被预测变量可能是二元变量，即成功或失败、流失或不流失、涨或跌等，对于这类问题，线性回归将束手无策。这个时候就需要另一种回归方法进行预测，即Logistic回归。

在实际应用中，Logistic模型主要有三大用途：

1）寻找危险因素，找到某些影响因变量的"坏因素"，一般可以通过优势比发现危险因素；

2）用于预测，可以预测某种情况发生的概率或可能性大小；

3）用于判别，判断某个新样本所属的类别。

Logistic模型实际上是一种回归模型，但这种模型又与普通的线性回归模型又有一定的区别：

1）Logistic回归模型的因变量为二分类变量；

2）该模型的因变量和自变量之间不存在线性关系；

3）一般线性回归模型中需要假设独立同分布、方差齐性等，而Logistic回归模型不需要；

4）Logistic回归没有关于自变量分布的假设条件，可以是连续变量、离散变量和虚拟变量；

5）由于因变量和自变量之间不存在线性关系，所以参数(偏回归系数)使用最大似然估计法计算。

logistic回归模型概述

广义线性回归是探索“响应变量的期望”与“自变量”的关系，以实现对非线性关系的某种拟合。这里面涉及到一个“连接函数”和一个“误差函数”，“响应变量的期望”经过连接函数作用后，与“自变量”存在线性关系。选取不同的“连接函数”与“误差函数”可以构造不同的广义回归模型。当误差函数取“二项分布”而连接函数取“logit函数”时，就是常见的“logistic回归模型”，在0-1响应的问题中得到了大量的应用。

Logistic回归主要通过构造一个重要的指标：发生比来判定因变量的类别。在这里我们引入概率的概念，把事件发生定义为Y=1，事件未发生定义为Y=0，那么事件发生的概率为p,事件未发生的概率为1-p，把p看成x的线性函数；

回归中，最常用的估计是最小二乘估计，因为使得p在[0,1]之间变换，最小二乘估计不太合适，有木有一种估计法能让p在趋近与0和1的时候变换缓慢一些（不敏感），这种变换是我们想要的，于是引入Logit变换,对p/(1-p)也就是发生与不发生的比值取对数，也称对数差异比。经过变换后，p对x就不是线性关系了。

变量模型线性系数结果

# 上一篇：c语言培训机构排名

# 下一篇：java从入门到精通，有哪些书籍和视频适合学习？