r语言如何数据分析

2023-02-23 07:50:01Python09

r语言如何数据分析,第1张

r语言数据分析是查看数据的结构、类型，数据处理。根据查询相关资料信息显示：R语言是一个开源、跨平台的科学计算和统计分析软件包，具有丰富多样、强大的的统计功能和数据分析功能，数据可视化可以绘制直方图、箱型图、小提琴图等展示分数的分布情况可以通过散点图和线性拟合来展示分数和年龄之间的关系。

老师的吐槽大会，乐死我了。hhh

regression，通常指用一个或者多个预测变量，也称自变量或者解释变量，来预测响应变量，也称为因变量、效标变量或者结果变量的方法

存在多个变量

AIC 考虑模型统计拟合度、用来拟合的参数数目

AIC值越小，越好

更多的变量：

图一：是否呈线性关系，是

图二：是否呈正态分布，一条直线，正态分布

图三：位置与尺寸图，描述同方差性，如果方差不变，水平线周围的点应该是随机分布

图四：残差与杠杆图，对单个数据值的观测，鉴别离群点、高杠杆点、强影响点

模型建好，用predict函数对剩余500个样本进行预测，比较残差值，若预测准确，说明模型可以。

analysis of variance，简称ANOVA，也称为变异数分析。用于两个及两个以上样本均数差别的显著性检验。广义上，方差分析也是回归分析的一种，只不过线性回归的因变量一般是连续型变量。自变量是因子时，研究关注的重点通常会从预测转向不同组之间的差异比较。也就是方差分析。

power analysis，可以帮助在给定置信度的情况下，判断检测到给定效应值所需的样本量。也可以在给定置信度水平情况下，计算在某样本量内能检测到给定效应值的概率

拓展了线性模型的框架，包含了非正态因变量的分析。线性回归、方差分析都是基于正态分布的假设

-泊松回归，用来为计数资料和列联表建模的一种回归分析。泊松回归假设因变量是泊松分布，并假设它平均值的对数可被未知参数的线性组合建模

-logistic 回归

通过一系列连续型或者类别型预测变量来预测二值型结果变量是，logistic 回归是一个非常有用的工具。流行病学研究中用的多。

Principal Component Analysis，PCA，探索和简化多变量复杂关系的常用方法。是一种数据降维技巧。可以将大量相关变量转化为一组很少的不相关变量。这些无关变量成为主成分。主成分是对原始变量重新进行线性组合，将原先众多具有一定相关性的指标，重新组合为一组的心得相互独立的综合指标。

探索性因子分析法 exploratory factor analysis，简称为EFA，是一系列用来发现一组变量的潜在结构的方法。通过找寻一组更小的、潜在的活隐藏的结构来解释已观测到的、显式的变量间的关系

因子分析步骤与PCA一致

啤酒与尿布

先加载相关的package

然后提取想要的基因集，变成list

然后进行富集分析

需要注意的点：

1.expr输入的表达矩阵必须为：SummarizedExperiment或者SingleCellExperiment ExpressionSet 或者别的什么对象。如果是dataframe的话需要转换为matrix。

2.gset.idx.list是输入的基因集，要么是一个list，要么是一个GeneSetCollection对象

3.kcdf这个参数用于设定非参数检验的分布类型，当输入的表达矩阵是raw_counts时，那么这个参数应该设置为kcdf=“Poisson”。

颜色通过colorRampPalette(c("navy", "white", "firebrick3"))(100)函数生成

annotation_col是一个1列的dataframe，行名是样本名，第一列填分组信息，要转换为factor。如下图：