【R语言编程】---根据表达量计算mRNA与lncRNA的皮尔森相关系数

2023-02-18 20:05:02Python016

【R语言编程】---根据表达量计算mRNA与lncRNA的皮尔森相关系数,第1张

前言： 在构建ceRNA 网络时，需要计算lncRNA 与蛋白编码gene (pc gene）间的表达相关性，一般采用皮尔逊相关系数。具体如何做呢？

2.获得mRNA的表达矩阵

4个基因在100个样本的表达量矩阵：

3.计算lncRNA 与gene 的表达相关性

使用cor()函数进行皮尔森相关系数计算，就是这么简单：

相关性分析是指对两个或多个具备相关性的变量元素进行分析，从而衡量两个变量因素的相关密切程度。相关性分析旨在研究两个或两个以上随机变量之间相互依存关系的方向和密切程度。

一般来讲研究对象（样品或处理组）之间使用距离分析，而元素（物种或环境因子）之间进行相关性分析 。两个变量之间的相关性可以用简单相关系数（例如皮尔森相关系数等）进行表示，相关系数越接近1，两个元素相关性越大，相关系数越接近0，两个元素越独立。

Pearson相关系数是用于表示相关性大小的最常用指标，数值介于-1~1之间，越接近0相关性越低，越接近-1或1相关性越高。正负号表明相关方向，正号为正相关、负号为负相关。适用于两个正态分布的连续变量。

利用两变量的秩次大小来进行分析，属于非参数统计方法。适用于不满足Pearson相关系数正态分布要求的连续变量。也可以用于有序分类变量的之间的相关性测量。

Kendall's Tau相关系数是一种非参数检验，适用于两个有序分类变量。

此外衡量两个变量之间关系的方法还有：卡方检验、Fisher精确检验等。

Pearson、Spearman、Kendall相关系数都可以通过cor函数实现，cov协方差函数参数同cor函数。

ggcorrplot包内只有2个函数，一个cor_pmat()用于计算p值，一个ggcorrplot()用于绘图。ggcorrplot相当于精简版的corrplot包，只有主题更加丰富多样。

This function computes and returns the distance matrix computed by using the specified distance measure to compute the distances between the rows of a data matrix.

这个函数用特定的方法计算矩阵的行之间的距离，并返回距离矩阵。

scale是对矩阵的每一列进行标准化，如果要对行标准化需要先转置。如 heatmapdata <- t(scale(t(heatmapdata)))

多元线性回归是简单线性回归的扩展，用于基于多个不同的预测变量（x）预测结果变量（y）。

例如，对于三个预测变量（x），y的预测由以下等式表示： y = b0 + b1*x1 + b2*x2 + b3*x3

回归贝塔系数测量每个预测变量与结果之间的关联。“ b_j”可以解释为“ x_j”每增加一个单位对y的平均影响，同时保持所有其他预测变量不变。

在本节中，依然使用 datarium 包中的 marketing 数据集，我们将建立一个多元回归模型，根据在三种广告媒体（youtube，facebook和报纸）上投入的预算来预测销售。计算公式如下： sales = b0 + b1*youtube + b2*facebook + b3*newspaper

您可以如下计算R中的多个回归模型系数：

请注意，如果您的数据中包含许多预测变量，则可以使用 ~. 以下命令将模型中的所有可用变量简单地包括在内：

从上面的输出中，系数表显示β系数估计值及其显着性水平。列为：

如前所述，您可以使用R函数轻松进行预测 predict() ：

在使用模型进行预测之前，您需要评估模型的统计显着性。通过显示模型的统计摘要，可以轻松地进行检查。

显示模型的统计摘要，如下所示：

摘要输出显示6个组件，包括：

解释多元回归分析的第一步是在模型摘要的底部检查F统计量和关联的p值。

在我们的示例中，可以看出F统计量的p值<2.2e-16，这是非常重要的。这意味着 至少一个预测变量与结果变量显着相关 。

要查看哪些预测变量很重要，您可以检查系数表，该表显示了回归beta系数和相关的t统计p值的估计。

对于给定的预测变量，t统计量评估预测变量和结果变量之间是否存在显着关联，即，预测变量的beta系数是否显着不同于零。

可以看出，youtube和facebook广告预算的变化与销售的变化显着相关，而报纸预算的变化与销售却没有显着相关。