mydata<-read.table("data_RNA_Seq_v2_mRNA_median_ Zscores.txt", header = T, row.names=1, check.names = F)
报错:Error in read.table("data_RNA_Seq_v2_mRNA_median _Zscores.txt", header = T, : 'row.names'里不能有重复的名字
此时可以使用base包中的make.names()函数
使用方法:
1.先不设置行名将数据读进去
mydata<-read.table("data_RNA_Seq_v2_mRNA_median_ Zscores.txt", header = T, check.names = F)
2.使用make.names函数将第一列作为行名
row.names(mydata<-make.names(mydata[,1],TRUE)
关于make.names函数的使用方法可以通过?make.names获得
3. 删除第一列
mydata<-mydata[,-1]
4.查看数据前五行前五列看是否行名修改完成
mydata[1:5,1:5]
是因为将excel文件另存为csv文件造成的,解决办法如下:1、使用R语言(RStudio)运行read.csv()读取数据,发现代码运行出错。
2、输入View(x)却发现数据的左上角第一个数字出错有乱码,这才导致NAnotpermittedinpredictors。
3、可以使用matlab迂回的办法解决,首先在matlab中新建一个空矩阵,将数据复制到(读取到)此矩阵中。
4、然后,使用csvwrite(实验数据2.csv,A);将此数据再次输出(注意路径)。
5、接着再次读入R语言中,展开数据,数据报错问题就解决了。
杀杀
记录一些R语言读入数据的方法还有可能遇到的问题~
读入数据时,需要先了解数据文件的类型(也就是看后缀)。一般就能够知道数据的类型和分隔符等信息。
另外,如果能够用excel预览一下数据的话,可以先看看数据是否有行列名。有些数据会有两列的行名,如基因名-基因id-表达值······,特殊的数据需要额外的处理。
还需要注意一下matrix和data.frame的数据结构,matrix中只能有一种数据类型,这意味着如果在读入数据时不进行合适的处理,R会将数值强行读成字符型,造成读数据的错误。
当用excel存储过之后,再用R处理时,会提示你行名重复,其实根本没有重复。因此建议不要用excel保存这种数据,一定要编辑可以使用notepad++或者ultra edit等软件。
-----正题分割线-----
read.xx的函数是R的内置函数,可以直接读取,并且设置一些参数
这些函数读取后都默认为data.frame,如果需要矩阵请使用as.matrix转换。
一定要赋值,不然R语言会把大大的矩阵print出来。
如果是没怎么见过的类型:
这个函数会自动识别你的分隔符,并且把第一行设为列名,但是没办法指定行名,需要读入以后自己设置
跟read.delim类似,可以读各种类型的文件以及非常大的文件:
读取后默认是一种data.table的数据类型,需要通过as.matrix/as.data.frame转换后使用。
像perl语言一样,逐行读取数据具有很大的优势
(万一文件超多行对吧)对于那种几个G的文件,全部读进来可能会导致你的电脑死机,所以我们可以先读几百行进来看看,或者分批读取,这样不会占用电脑太大内存,读取方法和上文的一次性读入有所不同-随便找个文件举例:
接下来继续读入数据,比如说我现在想读4行,因为文件是txt类型,所以分隔设为\t
第一种:把excel中所有sheet的表格读入为data.frame,并分别命名为每个sheet的名称
---请忽略硬核打码
第二种:把excel中所有sheet的表格读入为矩阵,并放进一个list中
R语言批量读文件
批量读excel的xlsx文件原理是和读其它文件一样的。
学到了新的会持续更新哟~