r_stuio回归函数的程序包是哪个?

Python010

r_stuio回归函数的程序包是哪个?,第1张

1、线性模型~回归分析:【包】:stats 【函数】:lm(formula, data, ...)逐步回归:step(lm(formula, data, ...))回归诊断:influence.measure(lm(formula, data, ...))多重共线性:kappa(XX,exact=T), eigen(XX)自相关检验:一阶:dwtest(y~x) 多阶:bgtest(y~x,order=2,type=”Chisq”)【备注】:1)stats包里的lm()可做多元线形模型,anova.mlm()比较多个多元线形模型,manova()做多元方差分析(MANOVA)。2)sn包的msn.mle()和 and mst.mle()可拟合多元偏正态和偏t分布模型。3)pls包提供偏最小二乘回归(PLSR)和主成分回归;4)ppls包可做惩罚偏最小二乘回归;5)dr包提供降维回归方法,如:片逆回归法(Sliced Inverse Regression)、片平均方差估计(sliced average variance estimation)。6)plsgenomics包做基于偏最小二乘回归的基因组分析。7)relaimpo包可评估回归参数的相对重要性。2、logistic回归:【包】:stats 【函数】:glm(formula, family=gaussian,data, ...)注:familybinomial(link = "logit") gaussian(link = "identity") Gamma(link = "inverse") inverse.gaussian(link = "1/mu^2") poisson(link = "log") quasi(link = "identity", variance = "constant") quasibinomial(link = "logit") quasipoisson(link = "log")

3、无监督分类~决策树:【包】:rpart 【函数】:rpart(formula,data, method="class",control=ct,parms=list(prior=c(p,1-p),split="information"))

rpart.plot(fit,branch=1,branch.type=2,type=1,extra=102,shadow.col=”gray”,box.col=”green”,

split.cex=1.2,main=”Kyphosis决策树”) #提供了复杂度损失修剪的修剪方法

printcp(fit):告诉分裂到哪一层,CP,nsplit,rel,error,交叉验证的估计误差(xerror),标准误差(xstd)

prune(fit,cp=fit$cptable[which.min(fit$cptable[,"xerror"]),"CP"]):剪枝函数

【备注】:1)CRAN的 MachineLearning任务列表有对树方法的细节描述。

2)分类树也常常是重要的多元方法,rpart包正是这样的包,

3)rpart.permutation包还可以做rpart()模型的置换(permutation)检验。

4)TWIX包的树可以外部剪枝。

5)hier.part包分割多元数据集的方差。

6)mvpart包可做多元回归树,

7)party包实现了递归分割(recursive partitioning),

8)rrp包实现了随机递归分割。

9)caret包可做分类和回归训练,进而caretLSF包实现了并行处理。

10)kknn包的k-近 邻法可用于回归,也可用于分类。

4、支持向量机:

【包】:e1071,kernlab

【函数】:svm(x_train,y_train,type="C-classification",cost=10,kernel="radial",probability=TRUE,scale=FALSE)

svp=ksvm(x,y,type="C-svc",kernel="rbf",kpar=list(sigma=1),C=1)

5、无监督分类~聚类分析:

【包】:stats

【函数】:系统聚类:hclust(d,method=”complete”,members=NULL)

快速聚类:kmeans(x,centers,iter.max=10,nstart=1,algorithm=“Hartigan-Wong”)

距离函数:dist(x,method=”euclidean”,diag=FALSE,upper=FALSE,p=2)

【备注】:1)CRAN的Cluster任务列表全面的综述了R实现的聚类方法。

2)stats里提供等级聚类hclust()和k-均值聚类kmeans()。

3)cluster包里有大量的聚类和可视化技 术,

4)clv包里则有一些聚类确认程序,

5)e1071包的classAgreement()可计算Rand index比较两种分类结果。

6)Trimmed k-means聚类分析可由trimcluster包实现,

7)聚类融合方法(Cluster Ensembles)由clue包实现,

8)clusterSim包能帮助选择最佳的聚类,

9)hybridHclust包提供一些混合聚类方法。

10)energy包里有基于E统计量的距离测度函数edist()和等级聚类方法hclust.energy()。

11)LLAhclust包提供基于似然(likelihood linkage)方法的聚类,也有评定聚类结果的指标。

12)fpc包里有基于Mahalanobis距离的聚类。

13)clustvarsel包有多种基于模型的聚类。

14)模糊聚类(fuzzy clustering)可在cluster包和hopach包里实现。

15)Kohonen包提供用于高维谱(spectra)或模式(pattern)的有监督和无监督的SOM算法。

16)clusterGeneration包帮助模拟聚类。

17)CRAN的Environmetrics任务列表里也有相关的聚类算法的综述。

18)mclust包实现了基于模型的聚类,

19)MFDA包实现了功能数据的基于模型的聚类。

空间分辨转录组学的最新进展使基因表达模式的综合测量成为可能,同时保留了组织微环境的空间背景 破译组织中spot的空间背景需要谨慎使用它们的空间信息 。为此,开发了一个graph attention auto-encoder framework STAGATE, 通过整合空间信息和基因表达谱来学习低维潜在嵌入,从而准确识别空间域 。为了更好地表征空间域边界处的空间相似性,STAGATE 采用了一种 attention mechanism 来自 adaptively learn 相邻spot的相似性,并通过集成基因表达的pre-clustering, 采用可选的细胞类型感知模块 。在由具有不同空间分辨率的不同平台生成的不同空间转录组数据集上验证了 STAGATE。 STAGATE 可以显着提高空间域的识别精度,并在保留空间表达模式的同时对数据进行去噪 。重要的是, STAGATE 可以扩展到多个连续切片,以减少切片之间的批次效应,并有效地从重建的 3D 组织中提取三维 (3D) 表达域

复杂组织的功能从根本上与不同细胞类型的空间背景相关。 组织中转录表达的相对位置对于理解其生物学功能和描述交互式生物网络至关重要 。 空间分辨转录组学 (ST) 的突破性技术,例如 10x Visium、Slide-seq 和 Stereo-seq,已经能够以多个细胞甚至多个细胞的分辨率对捕获位置(称为SPOT)中的基因表达进行全基因组分析 亚细胞水平( 华大的空间技术已经可以达到亚细胞级别 )。

破译空间域(即具有相似空间表达模式的区域)是来自 ST 的巨大挑战之一。 大多数现有的聚类方法不能有效地使用可用的空间信息 。 这些非空间方法大致可以分为两类。 第一类使用传统的聚类方法,如k-means和Louvain算法 。 根据 ST 技术的不同分辨率,这些方法仅限于点数少或稀疏,并且在组织切片中聚类结果可能不连续。 第二类利用单细胞 RNA-seq 定义的细胞类型特征来解卷积spot 。 虽然这些integration方法很有吸引力, 但随着空间分辨率的提高,它们不适用于细胞或亚细胞水平分辨率的 ST 数据

最近的一些算法通过考虑相邻点之间的相似性来调整聚类方法,以更好地解释基因表达的空间依赖性 。这些方法在识别大脑和癌症组织切片的空间域方面显示出显着改进。例如, BayesSpace 大家可以参考文章 10X空间转录组聚类分析之BayesSpace算法聚类 ) 是一种贝叶斯统计方法, 它通过在先验中引入空间相邻结构来鼓励相邻点属于同一cluster stLearn ( 大家可以参考文章 10X空间转录组细胞通讯之stlearn(寻找区域交流热点中心) )根据从组织学图像中提取的特征定义形态学距离, 并利用这些距离以及空间相邻结构来平滑基因表达 SEDR 采用深度自动编码器网络来学习基因表示,并使用变分图自动编码器同时嵌入空间信息 。尽管这些方法考虑了 ST 的空间结构, 但它们定义的相邻点的相似性是在训练前预先定义的,无法自适应学习 。此外,这些方法没有更详细地考虑空间域边界处斑点的空间相似性,也没有很好地整合空间信息来对基因表达进行插补和去噪。更重要的是, 这些方法不能应用于多个连续切片来重建 3D (3D) ST 模型和提取 3D 表达域 目前3D空间表达域还是一大难题 )。

STAGATE 首先根据空间位置构建空间邻居网络 (SNN),然后通过基于基因表达的预聚类修剪 SNN 来可选地引入细胞类型感知 SNN。 基因表达预聚类可以有效识别包含不同细胞类型的区域,因此这种细胞类型感知 SNN 可以帮助更好地表征这些不同空间域边界处的空间相似性,用于低空间分辨率的 ST 数据,例如 10x Visium

然后 STAGATE 通过graph attention auto-encoder学习具有空间信息和基因表达的低维潜在嵌入 。 每个spot的归一化表达首先由编码器转换为 d 维潜在嵌入,然后通过解码器反转回重建的表达谱。 与经典的自动编码器不同, STAGATE 在编码器和解码器的中间层采用了attention mechanism。 它自适应地学习 SNN 的边缘权重(即相邻点之间的相似性),并通过集体聚合来自其邻居的信息进一步使用它们来更新spot表示 。 最后,潜在嵌入用于通过 UMAP 可视化数据,并使用各种聚类算法(例如 mclust 和 Louvain 这个聚类方法大家可以参考文章 10X单细胞(10X空间转录组)聚类算法之Louvain ))识别空间域。

为了定量评估 STAGATE 的空间聚类性能,我们首先将其应用于包含 12 个人类背外侧前额叶皮层 (DLPFC) 部分的空间表达的 10x Visium 数据集。 已经根据形态特征和基因标记手动注释了 DLPFC 层和白质 (WM)。 将其视为基本事实 ,我们将 STAGATE 的聚类精度与 SCANPY 实施的非空间聚类方法以及最近开发的三种空间聚类方法( BayesSpace 、 stLearn 和 SEDR )在调整后的兰特指数 (ARI) 方面进行了比较 。

STARGATE 可以有效识别预期的皮质层结构,并与其他方法相比取得显着改善

例如,在DLPFC部分151676中, STAGATE清晰地描绘了层边界,达到了最好的聚类精度(ARI=0.60) 。 相比之下, 非空间方法SCANPY的聚类分配可以大致遵循本节中预期的层模式,但其聚类边界不连续,存在许多异常值,这降低了其聚类精度 。 有趣的是,利用空间信息的算法 (STAGATE、 BayesSpace 、SEDR 和 stLearn ) 的性能明显优于非空间聚类方法 SCANPY。 这些结果证明了 STAGATE 在空间域识别方面的优越性及其使用空间信息的必要性

空间信息的整合使 STAGATE 能够揭示空间域之间的距离并在 UMAP 图中描绘空间轨迹 。例如,在 DLPFC 部分 151676 中,皮质层组织良好,并在 STAGATE 嵌入生成的 UMAP 图中显示出一致的空间轨迹(从第 1 层到第 6 层和白质)。该结果与相邻皮质层之间的功能相似性以及时间顺序一致。相比之下, 在 SCANPY 嵌入的 UMAP 图中,属于不同层的点没有清楚地分开 。至于另外两种空间聚类方法, stLearn没有明确区分WM和皮质层,SEDR混合了第1层和第6层的spot 。使用 PAGA 的轨迹推理算法进一步确认了推断的轨迹。 STAGATE 和 stLearn 嵌入的 PAGA 图显示出从 第 1 层到第 6 层的近乎线性的发展轨迹以及相邻层之间的相似性 ,而 SCANPY 和 SEDR 嵌入的 PAGA 结果是混合的。

进一步测试了 STAGATE 是否可以应用于不同空间分辨率的 ST 数据。 首先将 STAGATE 应用到来自小鼠海马体的具有 10μm 空间分辨率的 Slide-seqV2 数据集上 与分辨率为 55μm 的 10x Visium 平台相比,Slide-seqV2 可以在具有更多spot(每部分 >10,000)但每个斑点的序列深度更小的细胞水平分辨率下描绘空间表达 。 正如预期的那样,使用具有相同参数的 Louvain 聚类算法,STAGATE 可以很好地表征组织结构并揭示空间域,而通过 SCANPY 和 SEDR 识别的聚类缺乏清晰的空间分离。

例如, STAGATE 在海马区描绘了一个清晰的“索状”结构和一个“箭头状”结构,并确定了它的四个空间域 。 该结果与 Allen Reference Atlas 中海马结构的注释一致.

例如,ITPKA 和 BCL11B 显示出 Ammon 角域之间的差异表达,并且如预期的那样在 CA1sp 处高度表达 。已知的海马 CA2 分子标记如 AMIGO2 和 PCP4 在已鉴定的 CA2sp 域中特异性表达。此外,已发现在齿状回颗粒细胞上介导兴奋性突触发育的 LRRTM4 在鉴定的 DG-sg 区域特异性表达。除了这些已知的组织结构外,STAGATE 还鉴定了许多分离良好的空间域,并通过差异表达分析揭示了它们的空间基因表达模式。 the domain within the hippocampus except for the “cord-like” and “arrow-like” structures (domain 2) exhibited strong expression of astrocytes gene markers DDN and CAMK2A 。海马区周围的结构域(结构域 7)表达了许多与少突胶质细胞相关的基因标记,如 TRF 和 MOBP。此外,还在空间域 3 和 4 中观察到显著的空间表达模式,分别以 ENPP2 和 NWD2 为主表达。 这些结果表明 STAGATE 可以剖析空间异质性并进一步揭示空间表达模式 。我们还在通过 Slide-seq 和 10x Visium 技术分析的小鼠海马体切片上测试了 STAGATE。作为 Slide-seqV2 的初始版本,Slide-seq 的转录本检测灵敏度相对较低。 STAGATE 分别在 Slide-seq 数据和 10x Visium 数据上很好地描绘了除 CA2sp 之外的已知组织结构 。

还验证了 STAGATE 在识别小鼠嗅球组织结构方面的性能,这是一种广泛使用的具有层状组织的模型组织 。 首先在 Stereo-seq 从小鼠嗅球组织生成的 ST 数据集上测试了 STAGATE。 Stereo-seq是一种新兴的空间组学技术,可以通过DNA纳米球图案化阵列芯片实现亚细胞空间分辨率 。 此处使用的数据被分类为细胞水平的分辨率(~14μm)。 已在 DAPI 染色图像中标注了冠状小鼠嗅球的层状组织,包含喙迁移流 (RMS)、颗粒细胞层 (GCL)、内部丛状层 (IPL)、二尖瓣细胞层 (MCL)、外部丛状层 (EPL) 和嗅神经层 (ONL) 。

与 SCANPY 识别的cluster相比,使用 STAGATE 和 SEDR 嵌入识别的cluster更好地反映了层状组织,并且与注释层很好地对应。

重要的是,STAGATE清楚地识别了狭窄的组织结构MCL,这通过二尖瓣细胞标志物GABRA1的表达得到了验证。

还将 STAGATE 应用于由 SlideseqV2 分析的小鼠嗅球部分,发现 STAGATE 识别的空间域与 Allen Reference Atlas 对冠状小鼠嗅球的注释非常一致

具体来说,与 SCANPY 和 SEDR 产生的cluster相比,STAGATE 确定了分别对应于副嗅球 (AOB) 和副嗅球 (AOBgr) 的颗粒层的两个空间域

例如,FXYD6 在鉴定的 AOB 结构域上表现出strong expressions,这与其免疫组织化学实验一致。 颗粒细胞标记 ATP2B4 在已识别的 AOBgr 域上表现出强烈的表达。 STAGATE 还鉴定了具有二尖瓣细胞标志物 GABRA1 显性表达的狭窄 MCL 结构。 此外,STAGATE 还鉴定了一个名为 GCL_1 的 GCL 空间亚群,其主要表达 NRGN。 NRGN 是一个有据可查的精神分裂症风险基因,这意味着该域与认知功能有关 。 此外,发现 STAGATE 在 UMAP 图中以及 PAGA 图中描绘了小鼠嗅球之间的空间轨迹(从 AOBgr 到 RMS 到 ONL)。 总的来说, 这些结果说明了 STAGATE 识别组织结构并从不同空间分辨率的 ST 数据中揭示其组织的能力

接下来, 测试了 STAGATE 是否可以提供对包括更多生物复杂组织(例如整个大脑)在内的切片的洞察力 。 将 STAGATE 应用于 10x Visium 数据集,该数据集描绘了冠状小鼠大脑部分的空间表达。

例如, SCANPY 的聚类分配未能识别the “cord-like” structure -- Ammon's horn and the “arrow-like” structure -- dentate gyrus within the hippocampus 。 此外,SEDR 只能平滑域边界,也不能描绘小空间域。 STAGATE 的直接应用在空间域识别方面带来了一些改进 。 具体来说,在海马区,没有细胞类型感知模块的 STAGATE 识别了Ammon's horn的 CA1(域 17)和 CA3(域 19)区域,但没有描述齿状回结构。

对于包含空间分辨率低的异构细胞类型的 ST 数据, 带有细胞类型感知模块的 STAGATE 可以更好地学习空间相似性 。 具体来说,预聚类过程基于Louvain算法,分辨率参数较小(默认设置为0.2)。 正如预期的那样,单元类型感知模块的使用有助于识别空间域。 STAGATE 确定了海马中的阿蒙角以及齿状回结构,并进一步描绘了Ammon's horn的空间域 CA1(域 17)和 CA3(域 20)。 此外,STAGATE 更好地描绘了皮层区域(域 0、4 和 12)的层结构。 值得注意的是, 发现细胞类型感知模块也显着改善了 UMAP 图中组织结构的分离,而没有细胞类型感知模块的 SEDR 和 STAGATE 更像是非空间方法 SCANPY 的平滑版本

进一步评估了注意力机制的使用是否确实有助于更好地表征相邻点之间的异质相似性 。 通过根据节点的空间位置排列节点并通过它们的权重为边缘着色来可视化注意力层,发现单独使用注意力机制可以描绘主要组织结构的边界,如皮层、海马和中脑

结合 attention mechanism 和细胞类型感知模块,增强了对结构边界的描绘,进一步揭示了小空间域内的空间相似性。 例如,在海马区,STAGATE 自适应地学习了Ammon's horn内的空间相似性以及齿状回结构。 总的来说, 这些结果表明 attention mechanism 和细胞类型感知模块对于描述相邻点之间的相似性的重要性

STAGATE 可以对基因表达进行去噪和估算 。 分析采用 STAGATE 来减少 DLPFC 数据集中的噪声,以更好地显示基因的空间模式。 在 DLPFC 部分 151676 中比较了原始数据的六个层标记基因与 STAGATE 去噪的那些基因的表达

正如预期的那样, STAGATE 去噪的那些清晰地展示了这些层标记基因的laminar enrichment 。 例如,去噪后,ATP2B4 基因在第 2 层和第 6 层显示差异表达,这与先前报道的结果一致,而其原始空间表达完全混乱。 我们根据来自艾伦人脑图谱的公开原位杂交 (ISH) 数据验证了 STAGATE 显示的laminar enrichment。

此外,使用小提琴图比较原始表达和 STAGATE 去噪的表达表明 STAGATE 增强了层标记基因的空间模式

值得注意的是,STAGATE 在 DLPFC 部分 151507 上获得了类似的性能。 总的来说,这些结果证明了 STAGATE 降低噪音和增强空间表达模式的能力 。 此外,还在subsample实验方面将 STAGATE 的插补性能与四种广泛使用的单细胞 RNA-seq 插补算法进行了比较,并表明其在插补效率和空间表达模式的保存方面均具有优越性。

We applied STAGATE onto a pseudo-3D ST data constructed by aligning the spots of the “cord-like” structure in seven hippocampus sections profiled by Slide-seq

在相邻切片之间添加相邻边缘后,STAGATE 清楚地描绘了已知的组织结构,并且spot倾向于通过它们的空间结构而不是 UMAP 图中的切片 ID 进行聚类

通过已知的标记基因验证了基于 STAGATE 识别的组织结构,包括 ITPKA21、BCL11B22、AMIGO223 和 LRRTM4。 这些结果表明,STAGATE 可以通过结合 3D 空间信息帮助重建 3D 组织模型并准确提取 3D 表达模式

空间域的准确识别和空间表达基因的进一步提取对于理解组织组织和生物学功能至关重要 。在这里, 作者开发了一种快速且用户友好的空间域识别方法 STAGATE,它可以通过以 SCANPY 包的“anndata”对象作为输入,无缝集成到标准分析工作流程中 。 STAGATE 将空间位置信息转换为 SNN,并进一步采用图注意力自动编码器来集成 SNN 和表达profiles。在不同空间分辨率的不同平台生成的不同 ST 数据上测试了 STAGATE 的性能。发现 STAGATE 准确地揭示了 DLPFC 和小鼠嗅球的层流组织。此外,STAGATE 清楚地识别了海马体的已知组织结构,并揭示了它的空间域。还通过将其与 ISH 图像进行比较,证明了 STAGATE 在表达去噪方面的能力。最后, 说明了 STAGATE 减轻连续部分之间的批处理效应并在伪 3D ST 模型中提取 3D 表达域的能力

STAGATE 的成功主要归功于使用了graph attention mechanism来考虑空间邻居信息 。 然而,目前的 STAGATE 侧重于表达谱和空间信息的整合,并没有利用组织学图像。 现有的将组织学图像作为输入的方法,例如 stLearn ,在分析比较中没有取得良好的性能。 stLearn 采用预训练的神经网络从图像中提取特征,并通过余弦距离进一步计算形态距离。 认为这种预定义的方法没有利用深度学习的灵活性,并且可以扩展注意力机制以方便地自适应地整合组织学图像特征。

STAGATE 可以处理不同空间分辨率的 ST 数据。 通常,由于相邻spot之间的高度相似性,STAGATE 对于细胞或亚细胞分辨率的 ST 数据表现更好 。 对于空间分辨率相对较低的技术,引入了细胞类型感知模块来描述异构空间相似性。 然而, STAGATE 的一个潜在限制是它将来自一个部分的相邻点与属于不同部分的那些点相同。 未来的工作可能会采用异构网络来更好地描绘 3D 组织模型

此外, STAGATE 能够检测空间域内的空间可变基因 。 现有的空间可变基因识别算法如 SPARK-X(大家可以参考我的文章 10X单细胞(10X空间转录组)数据降噪分析(Imputation)之SAVER-X ) 没有考虑空间域信息,这使得在小组织结构内识别空间特异性表达的基因变得困难 。 为了说明这一点,在来自小鼠嗅球组织的 Slide-seqV2 数据集上比较了 STAGATE 空间域的差异表达基因与 SPARK-X 的差异表达基因。 具体来说,STAGATE 鉴定了 959 个域特异性基因,SPARK-X 搜索了 2,479 个空间可变基因,FDR <0.01。 **分析发现 SPARK-X 鉴定的许多基因在空间域之间没有表现出显着差异 **

此外,由 Moran's I 统计量测量的空间自相关在 STAGATE 鉴定的基因集与 SPARK-X 的前 1,000 个基因之间相似。 这两种方法鉴定的基因集有很大的重叠,但 SPARK-X 忽略了一些小组织结构的特定基因。 例如,二尖瓣细胞标记物 GABRA1 在 MCL 域中显示出显着的富集,但 SPARK-X 没有确定其空间模式(FDR = 0.018)。 此外,NEFH基因在MCL域也表现出强表达,而SPARK-X忽略了它(FDR=1)。 我们期望 STAGATE 可以促进组织组织的识别和相应基因标记的发现

生活很好,有你更好