python分析单细胞数据，多细胞去除的模块

2023-03-04 23:37:02Python019

python分析单细胞数据，多细胞去除的模块,第1张

hi，各位道友，上次我们介绍了R包DoubletFinder用于去除多细胞 那么python是否也有类似的模块去除多细胞呢，答案是有的。这次我们就来使用一下python模块去除多细胞

Single-Cell Remover of Doublets

Python code for identifying doublets in single-cell RNA-seq data

给定一个原始的（未归一化的）UMI，以细胞为行，基因为列的矩阵counts_matrix计数，计算每个单元的多细胞得分。

scr.scrub_doublets（）从观察到的数据模拟双峰，并使用k最近邻分类器为每个转录组计算一个连续doublet_score（介于0和1之间）。分数将自动设置为阈值以生成predicted_doublets，这是一个布尔数组，对于预测的doublets为True，否则为False。

最佳做法：

一、处理来自多个样本的数据时，请分别对每个样本运行Scrublet。因为Scrublet旨在检测由两个细胞的随机共封装形成的多细胞捕获，所以它在多个样本的合并数据集上可能表现不佳（原因大家都懂的）。

二、检查doublet分数阈值是否合理（在理想情况下，如本例所示，将双峰模拟doublet分数直方图的两个峰分开），并在必要时进行手动调整。例子在本文的后面展示。

三、可视化二维嵌入中的多细胞预测（例如UMAP或t-SNE）。预测的双峰应该大体上共定位（可能在多个群集中）。如果不是，则可能需要调整doublet得分阈值，或更改预处理参数以更好地解析数据中存在的单元格状态。

接下来我们看一下如何使用

第一步，导入必要的模块

第二步：读入矩阵，要求如上述所讲,计算多细胞比率

这一步包括

Initialize Scrublet object

相关参数是：

expected_doublet_rate:预期多细胞的比率，通常为0.05-0.1。结果对该参数不是特别敏感。

sim_doublet_ratio：相对于观察到的转录组数量，要模拟的双峰数量。此值应该足够高，以使所有的doublet状态都能通过模拟doublet很好地表示。设置得太高在计算上是耗时的。默认值是2，尽管低至0.5的值会为已测试的数据集提供非常相似的结果。

n_neighbors：用于构造观察到的转录组和模拟多细胞的KNN分类器的邻居数。通常，round（0.5 * sqrt（n_cells））的默认值效果很好。

运行默认pipeline，其中包括：

双重模拟

标准化，基因过滤，重新缩放，PCA

多细胞计算

多细胞得分阈值检测和双峰调用

绘制观察到的转录组和模拟多细胞的多细胞得分直方图

模拟的多细胞直方图通常是双峰的。左模式对应于由具有相似基因表达的两个细胞产生的“嵌入”多细胞。右边的的模式对应于“新型”多细胞，其由具有不同基因表达的细胞产生。 Scrublet只能检测”新型“双峰，这一点和doubleFinder的R包一样。

要比较单细胞与多细胞，我们必须设置一个阈值多细胞得分，理想情况下，应在模拟的双峰直方图的两种模式之间设置最小值。 scrub_doublets（）尝试自动识别这一点，并且在本示例中做得很好。但是，如果自动阈值检测效果不佳，则可以使用call_doublets（）函数调整阈值。例如：

scrub.call_doublets(threshold=0.25)

接下来我们画一下这个多细胞分布的直方图：

获取二维嵌入以可视化结果 (Tsne同理)

NoneType的本意是（变量的值是）空的值，所以，值都是空的了，当然没有相关的各种属性，包括这里的open_session了。原因在于：肯定是在调用此处函数之前，所传递进来的变量。Python (英国发音:/ˈpaɪθən/ 美国发音:/ˈpaɪθɑːn/), 是一种面向对象的解释型计算机程序设计语言，由荷兰人Guido van Rossum于1989年发明，第一个公开发行版发行于1991年。Python是纯粹的自由软件，源代码和解释器CPython遵循 GPL(GNU General Public License)协议。Python语法简洁清晰，特色之一是强制用空白符(white space)作为语句缩进。Python具有丰富和强大的库。它常被昵称为胶水语言，能够把用其他语言制作的各种模块(尤其是C/C++)很轻松地联结在一起。常见的一种应用情形是，使用Python快速生成程序的原型(有时甚至是程序的最终界面)，然后对其中有特别要求的部分，用更合适的语言改写，比如3D游戏中的图形渲染模块，性能要求特别高，就可以用C/C++重写，而后封装为Python可以调用的扩展类库。需要注意的是在您使用扩展类库时可能需要考虑平台问题，某些可能不提供跨平台的实现。

这次我们使用 Python 来实现生命游戏，这是一种简单的元胞自动机。基于一定规则，程序可以自动从当前状态推演到下一状态。制作的成品如下：

先来说说生命游戏的规则：

在生命游戏中，每个单元格有两种状态，生与死。在我们的实现中，黄色的单元格代表活着的细胞，红色单元格表示死亡的细胞。而每一个细胞的下一状态，是由该细胞及周围的八个细胞的当前状态决定的。

具体而言：

当前细胞为活细胞

当前细胞为死细胞

无需安装的标准库：

第三方库：

导入模块：

首先，我们要知道细胞的生存空间是 N * N 的方阵，每个细胞都有两种状态：on, off。on 为 255，off 为 0。我们使用 numpy 产生 N * N 的方阵。np.random.choice 是在 State.on 和 State.off ，等概率随机抽取一个元素构造 N * N 的方阵。

其次我们要明白如何计算细胞周围活细胞的个数，尤其是边界一圈的细胞。我们可以采用余数的方式，假设棋盘大小为 9 * 9，那么对于左右边界而言，左边界的左边一个元素的计算方式： - 1 % 9 = 8，自动折到右边界上。将细胞周围八个单元格的数值加起来，除以 255，就可以得到细胞周围活细胞的个数。

接下来是对规则的翻译，即根据当前世代的状态，推演出下一世代，细胞的状态。initial 为当前世代的矩阵，data为下一世代的矩阵，我们根据 initial 的数值，计算出 data 的数值。total 为周围活细胞的个数，如果当前为活细胞，total 大于三或者小于二，下一世代就会死去。如果当前为死细胞，total 等于三，下一世代活细胞就会繁殖到该单元格上。

接下来是制作动图的过程，前面几行是绘图的基本操作。之后，我们使用到了 matplotlib.animation 的方法。其中，FuncAnimation 接受的参数含义：fig 为图像句柄，generate 函数是我们更新每一帧图像所需数据的函数，下面会有介绍，fargs 为 genrate 函数的除去第一个参数的其他参数，第一个参数由 FuncAnimation 指定 framenum（帧数）传给 generate 函数。frames 是帧数，interval 是更新图像间隔，save_count 为从帧到缓存的值的数量。

如果指定保存路径(html)，则保存为 html 动画。

下面我们来看 generate 函数，NUM 为当迭代次数，frame_num 接收来自 FuncAnimation 的帧数。通过嵌套的 for 循环，我们逐个地更新方阵中各元素的状态。

最后，我们可以通过命令行参数，运行我们的程序：

-- size 参数为棋盘大小，--seed 为随机种子，用于产生不同的随机方阵。

高斯帕滑翔机枪(Gosper Glider Gun)

可将 --gosper 更改为 --glider 滑翔机。--save 为动图保存的地址。

细胞双峰阈值状态直方图

# 上一篇：如何用java输出txt文件

# 下一篇：Go语言能在中国这么火是因为什么？