python分析单细胞数据,多细胞去除的模块

Python019

python分析单细胞数据,多细胞去除的模块,第1张

hi,各位道友,上次我们介绍了R包DoubletFinder用于去除多细胞 那么python是否也有类似的模块去除多细胞呢,答案是有的。这次我们就来使用一下python模块去除多细胞

Single-Cell Remover of Doublets

Python code for identifying doublets in single-cell RNA-seq data

给定一个原始的(未归一化的)UMI,以细胞为行,基因为列的矩阵counts_matrix计数,计算每个单元的多细胞得分。

scr.scrub_doublets()从观察到的数据模拟双峰,并使用k最近邻分类器为每个转录组计算一个连续doublet_score(介于0和1之间)。 分数将自动设置为阈值以生成predicted_doublets,这是一个布尔数组,对于预测的doublets为True,否则为False。

最佳做法:

一、处理来自多个样本的数据时,请分别对每个样本运行Scrublet。 因为Scrublet旨在检测由两个细胞的随机共封装形成的多细胞捕获,所以它在多个样本的合并数据集上可能表现不佳(原因大家都懂的)。

二、检查doublet分数阈值是否合理(在理想情况下,如本例所示,将双峰模拟doublet分数直方图的两个峰分开),并在必要时进行手动调整。例子在本文的后面展示。

三、可视化二维嵌入中的多细胞预测(例如UMAP或t-SNE)。 预测的双峰应该大体上共定位(可能在多个群集中)。 如果不是,则可能需要调整doublet得分阈值,或更改预处理参数以更好地解析数据中存在的单元格状态。

接下来我们看一下如何使用

第一步,导入必要的模块

第二步:读入矩阵,要求如上述所讲,计算多细胞比率

这一步包括

Initialize Scrublet object

相关参数是:

expected_doublet_rate:预期多细胞的比率,通常为0.05-0.1。 结果对该参数不是特别敏感。

sim_doublet_ratio:相对于观察到的转录组数量,要模拟的双峰数量。 此值应该足够高,以使所有的doublet状态都能通过模拟doublet很好地表示。 设置得太高在计算上是耗时的。 默认值是2,尽管低至0.5的值会为已测试的数据集提供非常相似的结果。

n_neighbors:用于构造观察到的转录组和模拟多细胞的KNN分类器的邻居数。 通常,round(0.5 * sqrt(n_cells))的默认值效果很好。

运行默认pipeline,其中包括:

双重模拟

标准化,基因过滤,重新缩放,PCA

多细胞计算

多细胞得分阈值检测和双峰调用

绘制观察到的转录组和模拟多细胞的多细胞得分直方图

模拟的多细胞直方图通常是双峰的。左模式对应于由具有相似基因表达的两个细胞产生的“嵌入”多细胞。 右边的的模式对应于“新型”多细胞,其由具有不同基因表达的细胞产生。 Scrublet只能检测”新型“双峰,这一点和doubleFinder的R包一样。

要比较单细胞与多细胞,我们必须设置一个阈值多细胞得分,理想情况下,应在模拟的双峰直方图的两种模式之间设置最小值。 scrub_doublets()尝试自动识别这一点,并且在本示例中做得很好。 但是,如果自动阈值检测效果不佳,则可以使用call_doublets()函数调整阈值。 例如:

scrub.call_doublets(threshold=0.25)

接下来我们画一下这个多细胞分布的直方图:

获取二维嵌入以可视化结果 (Tsne同理)

NoneType的本意是 (变量的值是)空的值,所以,值都是空的了,当然没有相关的各种属性,包括这里的open_session了。原因在于:肯定是在调用此处函数之前,所传递进来的变量。Python (英国发音:/ˈpaɪθən/ 美国发音:/ˈpaɪθɑːn/), 是一种面向对象的解释型计算机程序设计语言,由荷兰人Guido van Rossum于1989年发明,第一个公开发行版发行于1991年。Python是纯粹的自由软件, 源代码和解释器CPython遵循 GPL(GNU General Public License)协议 。Python语法简洁清晰,特色之一是强制用空白符(white space)作为语句缩进。Python具有丰富和强大的库。它常被昵称为胶水语言,能够把用其他语言制作的各种模块(尤其是C/C++)很轻松地联结在一起。常见的一种应用情形是,使用Python快速生成程序的原型(有时甚至是程序的最终界面),然后对其中 有特别要求的部分,用更合适的语言改写,比如3D游戏中的图形渲染模块,性能要求特别高,就可以用C/C++重写,而后封装为Python可以调用的扩展类库。需要注意的是在您使用扩展类库时可能需要考虑平台问题,某些可能不提供跨平台的实现。

这次我们使用 Python 来实现生命游戏,这是一种简单的元胞自动机。基于一定规则,程序可以自动从当前状态推演到下一状态。制作的成品如下:

先来说说生命游戏的规则:

在生命游戏中,每个单元格有两种状态,生与死。在我们的实现中,黄色的单元格代表活着的细胞,红色单元格表示死亡的细胞。而每一个细胞的下一状态,是由该细胞及周围的八个细胞的当前状态决定的。

具体而言:

当前细胞为活细胞

当前细胞为死细胞

无需安装的标准库:

第三方库:

导入模块:

首先,我们要知道细胞的生存空间是 N * N 的方阵,每个细胞都有两种状态:on, off。on 为 255,off 为 0。我们使用 numpy 产生 N * N 的方阵。np.random.choice 是在 State.on 和 State.off ,等概率随机抽取一个元素构造 N * N 的方阵。

其次我们要明白如何计算细胞周围活细胞的个数,尤其是边界一圈的细胞。我们可以采用余数的方式,假设棋盘大小为 9 * 9,那么对于左右边界而言,左边界的左边一个元素的计算方式: - 1 % 9 = 8,自动折到右边界上。将细胞周围八个单元格的数值加起来,除以 255,就可以得到细胞周围活细胞的个数。

接下来是对规则的翻译,即根据当前世代的状态,推演出下一世代,细胞的状态。initial 为当前世代的矩阵,data为下一世代的矩阵,我们根据 initial 的数值,计算出 data 的数值。total 为周围活细胞的个数,如果当前为活细胞,total 大于三或者小于二,下一世代就会死去。如果当前为死细胞,total 等于三,下一世代活细胞就会繁殖到该单元格上。

接下来是制作动图的过程,前面几行是绘图的基本操作。之后,我们使用到了 matplotlib.animation 的方法。其中,FuncAnimation 接受的参数含义:fig 为图像句柄,generate 函数是我们更新每一帧图像所需数据的函数,下面会有介绍,fargs 为 genrate 函数的除去第一个参数的其他参数,第一个参数由 FuncAnimation 指定 framenum(帧数) 传给 generate 函数。frames 是帧数,interval 是更新图像间隔,save_count 为从帧到缓存的值的数量。

如果指定保存路径(html),则保存为 html 动画。

下面我们来看 generate 函数,NUM 为当迭代次数,frame_num 接收来自 FuncAnimation 的帧数。通过嵌套的 for 循环,我们逐个地更新方阵中各元素的状态。

最后,我们可以通过命令行参数,运行我们的程序:

-- size 参数为棋盘大小,--seed 为随机种子,用于产生不同的随机方阵。

高斯帕滑翔机枪(Gosper Glider Gun)

可将 --gosper 更改为 --glider 滑翔机。--save 为动图保存的地址。