如何用R语言做线性相关回归分析

2023-02-26 11:30:02Python048

如何用R语言做线性相关回归分析,第1张

cor()函数可以提供双变量之间的相关系数，还可以用scatterplotMatrix()函数生成散点图矩阵

不过R语言没有直接给出偏相关的函数；

我们要是做的话，要先调用cor.test()对变量进行Pearson相关性分析，

得到简单相关系数，然后做t检验，判断显著性。

散点图是将所有的数据以点的形式展现在直角坐标系上，以显示变量之间的相互影响程度，点的位置由变量的数值决定，每个点对应一个 X 和 Y 轴点坐标。散点图可以用R自带的plot()函数绘制，也可以用ggplot2包的geom_point()和 geom_dotplot()函数来绘制，当使用geom_dotplot()绘图时，point的形状是dot，不能改变点的形状，因此，geom_dotplot 叫做散点图（Scatter Plot），通过绘制点来呈现数据的分布，对点分箱的方法有两种：点密度（dot-density ）和直方点（histodot）。当使用点密度分箱（bin）方式时，分箱的位置是由数据和binwidth决定的，会根据数据进行变化，但不会大于binwidth指定的宽度；当使用直方点分箱方式时，分箱有固定的位置和固定的宽度，就像由点构成的直方图（histogram）。

基本语法：

x 横坐标 x 轴的数据集合；

y 纵坐标 y 轴的数据集合；

type：绘图的类型，p 为点、l 为直线， o 同时绘制点和线，且线穿过点；

main：图表标题；

xlab、ylab x 轴和 y 轴的标签名称；

xlim、ylim x 轴和 y 轴的范围；

axes 布尔值，是否绘制两个 x 轴。

p：点图；

l：线图；

b：同时绘制点和线；

c：仅绘制参数 b 所示的线；

o：同时绘制点和线，且线穿过点；

h：绘制出点到横坐标轴的垂直线；

s：阶梯图，先横后纵；

S：阶梯图，先纵后竖；

n：空图。

美化后的散点图

散点图矩阵是借助两变量散点图的作图方法，它可以看作是一个大的图形方阵，其每一个非主对角元素的位置上是对应行的变量与对应列的变量的散点图。而主对角元素位置上是各变量名，这样，借助散点图矩阵可以清晰地看到所研究多个变量两两之间的相关关系。散点图矩阵就是把数据集中的每个数值变量两两绘制散点图，这里我们用pairs()函数绘制。

把直方图放在对角线上

geom_point()函数用于创建散点图。散点图对于显示两个连续变量之间的关系最有用。它可以用于比较一个连续变量和一个类别变量，或者两个类别变量，但是像geom_jitter()、geom_count()或geom_bin2d()这样的变体通常更合适。气泡图是一个散点图，第三个变量映射到点的大小。

https://www.r-graph-gallery.com/

R语言泊松Poisson回归模型分析案例

这个问题涉及马蹄蟹研究的数据。研究中的每只雌性马蹄蟹都有一只雄性螃蟹贴在她的巢穴中。这项研究调查了影响雌蟹是否有其他男性居住在她附近的因素。被认为影响这一点的解释变量包括雌蟹的颜色（C），脊椎状况（S），体重（Wt）和甲壳宽度（W）。

数据文件：crab.txt。

我们将首先拟合仅具有一个自变量：宽度（W）的泊松回归模型

估计的模型是：$ log（ hat { mu_i}）$ = -3.30476 + 0.16405W ilog(μi^) = - 3.30476 + 0.16405W

估计的β= 0.164的ASE为0.01997，这是小的，并且该斜率在z值为8.216及其低p值的情况下在统计学上是显着的。

如果我们看一下W对Sa的散点图（见下文），我们可能会怀疑一些异常值

您可以考虑其他类型的残差，影响度量（如我们在线性回归中看到的）以及残差图。

以下是运行R代码其他部分的输出的一部分：

从上面的输出中，我们可以看到预测计数（“拟合”）和线性预测变量的值，即预期计数的对数值。

我们也可以看到，尽管预测是有意义的，但模型并不适合。考虑到剩余偏差统计值为567.88和171 df，p值为零，值/ DF = 567.88 / 171 = 3.321远大于1，因此该模型不适合。缺乏适合可能是由于缺少数据，协变量或过度分散。