用R语言对vcf文件进行数据挖掘.11 CNV分析

2023-02-24 14:53:02Python015

用R语言对vcf文件进行数据挖掘.11 CNV分析,第1张

在之前的文章里介绍了如何通过直方图来可视化等位杂合碱基的比例来判断物种的染色体倍数性。在本文里会继续向下挖掘，介绍如何可视化染色体上的拷贝数变化(CNVs)。

和前文一样的操作，使用包自带的数据。

我们需要去除过高和过低深度的数据。和前文的操作一样，提取vcf文件里的深度数据"AD"。

然后过滤出10%~90%的数据，当然此处可以根据实际情况进行微调。然后对第一种出现频率最高的碱基进行可视化。(一般情况下一个位点上会有两种碱基，具体参考前文。)

同样也可以对出现频率第二高的碱基进行同样的操作，这里节约篇幅就省略了。

为了避免复杂的基于AD比例的模型假设，程序里设计了非参数估计法来计算峰值。计算完了以后可以直接对染色体进行拆分以后可视化进行校验。

根据尺寸把染色体分割成合适的大小

然后用 freq_peak 函数计算峰值。并对数据进行处理，去掉负数和Na值。

计算到此为止，可以可视化实际数据来验证计算的正确性。

仔细想一下，峰值计算的结果其实就是CNV的结果。这里根据窗口大小把染色体分成了若干段。(那么是不是可以给每一段 CDS进行细分然后计算出每一个CDS的具体数字呢????)

当然也可以把所有样本组合到一起。

R的内存管理太烂了，因为很少给程序员管理的权限，这样一来操作系统懒加上R也懒导致常常读入大数据时内存瞬间用完，导致这个R session被强制退出。

解决办法就是把常用的大数据提前放在共享内存里。

Rmpi，snow，multicore: 平行运算/多运程运算。

Rmpi最好多看看，是mpi在R里面的实现。这是平行运算的黄金标准。

如果你要做大数据的模型，高能运算是必须的。

刚接触R语言一周，和matab不同R作用于数据挖掘的库很多,详解见 R语言数据挖掘包

，下面简介文本分析经常使用到的三个包

tm 为文本挖掘提供综合性处理 Rwordmsg 进行中文分词 wordcloud 统计词云

以第三届泰迪杯A题提供的数据集国美-Sheet1进行文本分析 : 第三届泰迪杯

转化为txt的数据集如下图所示:

生成词云:

数据碱基染色体前文峰值

# 上一篇：Go语言和其他语言的不同之基本语法

# 下一篇：C语言中输入%8c是甚么意思

给您推荐相同类型的内容：

R 从数据库中读时间格式的数据画图时出错
c# DateTime.ToString("yyyy-MM-DD") 需要用DateTime的时候在把STRING换回DateTime===========================================
r语言中怎么把某个点在折线图中标出来的
如果是加文字，画好图之后，在你想放文字的地方text(x,y,name)，如楼上。如果是要突出显示，points（x,y)吧http:wenku.baidu.comlink?url=mMnroYY14th1qiKzsFnTUVcept
r语言中,εi~N（0，1）怎么输入?
1)set.seed(1)n=5000gender=sample(c("f","m"),size=n,TRUE)dechot=function(gender,type){n=length(gender
如何学习GO语言？
Go语言也称 Golang，兼具效率、性能、安全、健壮等特性。这套Go语言教程（Golang教程）通俗易懂，深入浅出，既适合没有基础的读者快速入门，也适合工作多年的程序员查阅知识点。Go 语言这套教程在讲解一些知识点时，将 Go 语言和其
go语言可以做什么
1、服务器编程：以前你如果使用C或者C++做的那些事情，用Go来做很合适，例如处理日志、数据打包、虚拟机处理、文件系统等。2、分布式系统、数据库代理器、中间件：例如Etcd。3、网络编程：这一块目前应用最广，包括Web应用、API应用、
origin的坐标中怎么输入摄氏度的符号
在origin中利用Symbol Map窗口在坐标中输入摄氏度的符号，具体操作请参照以下步骤，演示软件为Origin 8.1。1、首先在电脑上打开origin软件，然后进入到需要插入符号的界面。2、然后用鼠标左键双击“温度”，并将光标移
如何让Hadoop结合R语言做大数据分析？
R语言和Hadoop让我们体会到了，两种技术在各自领域的强大。很多开发人员在计算机的角度，都会提出下面2个问题。问题1: Hadoop的家族如此之强大，为什么还要结合R语言？x0dx0a问题2: Mahout同样可以做数据挖掘和机器学习
go语言和java哪个前景好一点？
go语言和java，go语言更有前途。1.Java仍然是主流的企业级应用编程语言，看看阿里，华为等大厂的招聘岗位就知道了。2.Go语言代表了未来，很多新兴上市公司，如B站，高途课程等用Go做主编程语言。我所知道的一些创业公司，也开会尝试
在c语言中%3c 是什么意思
%是C语言中的格式字符，c代表了输出字符类型，3代表了占位情况，%3c的意思是输出一个占位3的字符。式样化规定字符, 以"%"开端, 后跟一个或几个规定字符, 用来确定输出内容式样。扩展资料%d 十进制有符号整数%
golang 进程创建，fork，以及热重启（无缝升级）
一般来说，进程的操作使用的是一些系统的命令，所以go内部使用os包，进行一些运行系统命令的操作 os 包及其子包 osexec 提供了创建进程的方法。一般的，应该优先使用 osexec 包。因为 osexec 包依赖 os
Go语言是做什么的
应用于搭建 Web 服务器，存储集群或类似用途的巨型中央服务器的系统编程语言。Go 是谷歌的编程语言，而不是社区的。在这位博主看来，虽然 Go 语言拥有一个贡献者社区，但是它并不是社区的项目，只是谷歌的一个项目。所以只要是谷歌反对的东西，
go语言培训班哪个好
很多人盲目的寻找所谓的go语言开发培训排行榜，但是因为没有一个统一的标准，这样一个靠谱的排行榜其实不存在，请注意我这里说的是靠谱的。排行榜有，但都是一些个人总结的，有太多的个人主观的喜好在里面，没有权威的第三方机构进行评测。那么排行榜不靠谱
go语言：数组
数组是一个由固定长度的特定类型元素组成的序列，一个数组可以由零个或多个元素组成。数组是值类型数组的每个元素都可以通过索引下标来访问，索引下标的范围是从0开始到数组长度减1的位置，内置函数 len() 可以
c在c语言中的意思
c在c语言中的意思c在c语言中的意思，随着网络时代的发展，越来越多的人会一些技术，尤其是c语言，对于很多人来说这一门技术是比较实用的，我为大家整理好了c在c语言中的意思的相关资料。c在c语言中的意思1读入一个字符。读入一个
C语言中输入%8c是甚么意思
如果是输入的话，表示字符输入后，必须再输入8个字符，系统才能接收你的输入如#includestdio.hintmain(){charcscanf(%8c,printf(%c,c)return0}输入12345678结果1固然，2345678
turbo c20 C语言编程
x.htm===&gt&ltscript language="Javascript"&gtfunction $(obj){return document.getElementById(obj) }
r语言中异常值在画图中怎么调整异常值的大小
1、首先r语言中在画图中调整异常值的大小可以不断删除强影响点或者离群点。2、其次一直重复直到获得比较满意的拟合。3、最后若不显著，则说明数据集中没有离群点。1、首先需要打开R studio，新建文件脚本，【File】——【New Scrip
c语言里，char c1,c2和int c1,c2的区别？是否等价？
数据类型不同，不等价。1，数据类型不同char c1,c2为字符串类型变量。int c1,c2为整数型变量。2，使用方式不同：char c1,c2储存字符。int c1,c2储存整数。3，占用内存不同：char类型占用一
如何用golang实现corba orb
生成go代码：thrift -o &ltoutput directory{默认当前目录gen-py}&gt-gen go {对应版本的hbase源码地址}srcmainresourcesorgapacheHado
GO语言（十五）：泛型入门（下）-
在本节中，您将添加通用函数调用的修改版本，进行小的更改以简化调用代码。您将删除在这种情况下不需要的类型参数。当 Go 编译器可以推断您要使用的类型时，您可以在调用代码中省略类型参数。编译器从函数参数的类型推断类型参数。请
Go语言命令行利器cobra使用教程
我喜欢jetbrains系列的IDE+go插件。不过我要说的是这个问题主要看你的观点如何。说eclipse：构建方式是使用go install 命令，每一次编译运行都是go install。这样的好处就是如果你有很多的包，下载下来并没有编译
「测试开发全栈化-Go」(1) Go语言基本了解
作为一个测试，作为一个测试开发，全栈化+管理是我们未来的发展方向。已经掌握了Java、Python、HTML的你，是不是也想了解下最近异常火爆的Go语言呢？来吧，让我们一起了解下。Go 是一个开源的编程语言
C语言和C++的区别
C语言与C＋＋的区别有很多，下面是简要概述：1、面向不同C语言是面向过程的，C＋＋是面向对象的。函数库C语言有标准的函数库，它们松散的，只是把功能相同的函数放在一个头文件中；C＋＋对于大多数的函数都是有集成的很紧密，特别是C语言中
关于C语言
楼主原程序中:int i=1,sum=0while(i&lt=100){sum=sum+1 i++}按照你所写程序执行时(建议楼主好好看看,基础的问题): 因为i=1,当i&lt=100时执行循环sum=sum+1,也就是执
请问大家：C语言和C51有什么区别？
（1）含义不同：1、C语言是一门面向过程的、抽象化的通用程序设计语言，广泛应用于底层开发。C语言能以简易的方式编译、处理低级存储器。2、C51是nVIDIA公司推出的首款K8平台整合芯片组的产品系列代号，使用C51系列芯片组的北桥芯片分
R语言如何按行读取无序的TXT
r语言读取.txt文件中的内容，采用函数read.table(“xxx.txt”,head=TRUE|FALSE)其中head=TRUE表示含有属性的标题，head=FALSE表示不含属性的标题。下面以读取exam0203.txt中的文件为
如何评价Uber不用Node.js，而用Go语言构建地理查询服务
严格从语法上来说，Swift 3.0确实是全世界目前最先进的、最现代的语法，其精准、安全程度远远超过其他任何一种语言，从性能上来说，Nodejs真的不适合做服务器。下面的链接有一组数据，优惠码 uber-gifts 使用了没？短信回复验证
推荐一个GO语言教程，最好能从最基础的开始？
Go 语言被设计成一门应用于搭载 Web 服务器，存储集群或类似用途的巨型中央服务器的系统编程语言。对于高性能分布式系统领域而言，Go 语言无疑比大多数其它语言有着更高的开发效率。它提供了海量并行的支持，这对于游戏服务端的开发而言是再好不过
郑源资料简介
郑源，华语流行歌手，著名音乐人，词曲作家，中国最年轻的音乐教授之一。他精通高胡、钢琴、吉他、爵士鼓等多样乐器，声线极具特色，开创了独特的“源氏情歌”，成为当代华语流行情歌界最具代表性的人物之一。个人原创代表作有《寒江雪》、《梦中情人》、《包
用R语言，生成1000个服从标准正态分布的随机数，画出散点图，频率直方图（附加密度曲线）及箱线图
作为一种语言进行统计分析，R有一个随机数生成各种统计分布功能的综合性图书馆。R语言可以针对不同的分布，生成该分布下的随机数。其中有许多常用的个分布可以直接调用。在R中各种概率函数都有统一的形式，即一套统一的前缀+分布函数名：d 表示密度

推荐阅读

热门文章

最新发布

标签列表

用R语言对vcf文件进行数据挖掘.11 CNV分析

给您推荐相同类型的内容：