读文件常用的几种方法:
1. library(readxl)
data <- read_excel("name.xlsx",sheet=1,col_names = T,col_types = NULL ,na="", skip=0)
2. data <- read.table("name.txt",header = T,sep = "")
3. read.csv(file.choose(),header = F,sep = ",")#逗号可删除
data <-data.frame(data$a,data$b)#合并成数据框结构
写入文件:
write.table(data,file = "data.csv",sep=",",row.names = F, col.names = F ,quote = F)
杀杀前两天一个同学问了一个批量读数据(文件)的问题
感觉现在分析测序数据的话,在R中一次性读取多个文件的功能还是挺需要用到的
决定总结一下下
总不能写n行read.csv…balabala…去读取,那太麻烦了
于是决定使用批量读数据
首先我们要获取这个文件夹里所有的文件名字以便读取
接下来我们需要构建读文件的路径
ps: 在做这种批量操作时还是有必要先花时间测试一个样本是否能够成功,然后再去做批量的循环,这样也能方便自己找bug
因此我们先试着读取一个文件
这里因为例子中的文件格式比较特殊,所以使用的读取函数是read.delim,如果是.csv或.txt等格式,也可以替换成read.csv, read.table等函数。
好了测试通过,接下来开始批量读文件
需要注意的是,合并文件的时候,需要注意你是要取所有文件中行名的交集还是并集,或者最后你是否有一个统一的行名来规整所有文件。(当然如果你确定每个文件的行名都是相同的,就可以直接cbind),我遇到过需要取交集的情况,可以写一个循环对每个文件的行名做交集,用最终的交集文件去match出所有你要的行然后合并。
但是这个例子中,有的文件的行名是1-4000,有的是5000-8000,存在非常大的差异,而需求是最后整合成一个行名为0-8000的矩阵,因此我先建立一个0-8000的列作为行名,把每个文件和这列进行一个match操作,然后未match到的填充为0。
其实没有很难的部分,主要是需要读取文件夹中的所有文件名,然后循环读取就行了。
qiime2会直接给出各个分类水平的丰度表,用R语言也可以从otu表中抽提出各个水平的丰度表。读取otu丰富度
代码思路:
1 strsplit后,phylum不是na也不是""则记下,否则记行数到delete
2 添加phylum列,删除注释列和记到delete的phylum
3 按Phylum排序,获取Phylum unique列表
4提取第一个phylum所有行到新表,apply列求和
5遍历剩下的phylum列表,提取每个phylum,apply按列求和,添加到新表
6 数据归一化,保存
拓展:
R语言读取Excel文件的各种方法
最近初学R语言,在R语言读入EXCEL数据格式文件的问题上遇到了困难,经过在网上搜索解决了这一问题,下面归纳几种方法,供大家分享:
第一: R中读取excel文件中的数据的路径:
假定在您的电脑有一个 excel 文件,原始的文件路径是: D:workdata1
如果直接把这个路径拷贝到R中,就会出现错误,原因是:
是escape character(转义符),\才是真正的字符,或者用/
因此,在R中有两种方法读取该路径:
1:在R中输入一下路径: D:\work\data\1 2:在R中输入一下路径: D:\work\data\1 第二: R中读取excel文件中的数据的方法 :
read.table(),read.csv(),read.delim()直接读取EXCEl文件时,都会遇到一下问题:“在读取‘.xls’的TableHeader时遇到不完全的最后一行”。解决的方法有以下几种:假如文件1.1中是一个6乘以2的矩阵,元素为:
方法1: xls另存为csv格式然后用read.csv :
具体过程如下:
>data<-read.csv("D:\work\data\1.csv") >data X1 X23 1 2 24 2 3 25 3 4 26 4 5 27 5 6 28 >data<-read.csv("D:\work\data\1.csv",header = F) >data V1 V2 1 1 23333 2 2 24 3 3 25 4 4 26 5 5 27 6 6 28 >data<-read.csv("D:\work\data\1.csv",header = T) >data X1 X23333 1 2 24 2 3 25 3 4 26 4 5 27 5 6 28 也就是说 header = T(TURE)是默认的状态 ,在这默认状态下,输出的data矩阵是一个5乘以2的矩阵,第一行作为了data的名字,如果 header = F(FALSE), 则会现实原始的矩阵结果。
方法2: xls另存为txt格式然后用read.table : 如例子所示:
>data<-read.table("D:\work\data\1.txt",header = T) >data X1 X23 1 2 24 2 3 25 3 4 26 4 5 27 5 6 28
>data<-read.table("D:\work\data\1.txt",header = F) >data V1 V2 1 1 23 2 2 24 3 3 25 4 4 26 5 5 27 6 6 28 方法3:打开EXCEL,全选里面的内容,点击复制,然后在R中输入一下命令:数据分析培训
data <- read.table("clipboard", header = T, sep = 't') 结果如下所示:
>data <- read.table("clipboard", header = T, sep = 't') >data X1 X23 1 2 24 2 3 25 3 4 26 4 5 27 5 6 28 >data <- read.table("clipboard", header = F, sep = 't') >data V1 V2 1 1 23 2 2 24 3 3 25 4 4 26 5 5 27 6 6 28 使用这种方法的时候一定要注意复制!剪切板里面没有内容是无法运行的!