R语言读数据

2023-02-25 07:33:01Python061

R语言读数据,第1张

杀杀

记录一些R语言读入数据的方法还有可能遇到的问题~

读入数据时，需要先了解数据文件的类型（也就是看后缀）。一般就能够知道数据的类型和分隔符等信息。

另外，如果能够用excel预览一下数据的话，可以先看看数据是否有行列名。有些数据会有两列的行名，如基因名-基因id-表达值······，特殊的数据需要额外的处理。

还需要注意一下matrix和data.frame的数据结构，matrix中只能有一种数据类型，这意味着如果在读入数据时不进行合适的处理，R会将数值强行读成字符型，造成读数据的错误。

当用excel存储过之后，再用R处理时，会提示你行名重复，其实根本没有重复。因此建议不要用excel保存这种数据，一定要编辑可以使用notepad++或者ultra edit等软件。

-----正题分割线-----

read.xx的函数是R的内置函数，可以直接读取，并且设置一些参数

这些函数读取后都默认为data.frame，如果需要矩阵请使用as.matrix转换。

一定要赋值，不然R语言会把大大的矩阵print出来。

如果是没怎么见过的类型：

这个函数会自动识别你的分隔符，并且把第一行设为列名，但是没办法指定行名，需要读入以后自己设置

跟read.delim类似，可以读各种类型的文件以及非常大的文件：

读取后默认是一种data.table的数据类型，需要通过as.matrix/as.data.frame转换后使用。

像perl语言一样，逐行读取数据具有很大的优势

（万一文件超多行对吧）对于那种几个G的文件，全部读进来可能会导致你的电脑死机，所以我们可以先读几百行进来看看，或者分批读取，这样不会占用电脑太大内存，读取方法和上文的一次性读入有所不同-随便找个文件举例：

接下来继续读入数据，比如说我现在想读4行，因为文件是txt类型，所以分隔设为\t

第一种：把excel中所有sheet的表格读入为data.frame，并分别命名为每个sheet的名称

---请忽略硬核打码

第二种：把excel中所有sheet的表格读入为矩阵，并放进一个list中

R语言批量读文件

批量读excel的xlsx文件原理是和读其它文件一样的。

学到了新的会持续更新哟~

qiime2会直接给出各个分类水平的丰度表，用R语言也可以从otu表中抽提出各个水平的丰度表。

读取otu丰富度

代码思路：

1 strsplit后，phylum不是na也不是""则记下，否则记行数到delete

2 添加phylum列，删除注释列和记到delete的phylum

3 按Phylum排序，获取Phylum unique列表

4提取第一个phylum所有行到新表，apply列求和

5遍历剩下的phylum列表，提取每个phylum，apply按列求和，添加到新表

6 数据归一化，保存

拓展:

R语言读取Excel文件的各种方法

最近初学R语言，在R语言读入EXCEL数据格式文件的问题上遇到了困难，经过在网上搜索解决了这一问题，下面归纳几种方法，供大家分享：

第一： R中读取excel文件中的数据的路径：

假定在您的电脑有一个 excel 文件，原始的文件路径是： D:workdata1

如果直接把这个路径拷贝到R中，就会出现错误，原因是：

是escape character（转义符），\才是真正的字符，或者用/

因此，在R中有两种方法读取该路径：

1：在R中输入一下路径： D:\work\data\1 2：在R中输入一下路径： D:\work\data\1 第二： R中读取excel文件中的数据的方法：

read.table(),read.csv(),read.delim()直接读取EXCEl文件时，都会遇到一下问题：“在读取‘.xls’的TableHeader时遇到不完全的最后一行”。解决的方法有以下几种：假如文件1.1中是一个6乘以2的矩阵，元素为：

方法1： xls另存为csv格式然后用read.csv ：

具体过程如下：

>data<-read.csv("D:\work\data\1.csv") >data X1 X23 1 2 24 2 3 25 3 4 26 4 5 27 5 6 28 >data<-read.csv("D:\work\data\1.csv",header = F) >data V1 V2 1 1 23333 2 2 24 3 3 25 4 4 26 5 5 27 6 6 28 >data<-read.csv("D:\work\data\1.csv",header = T) >data X1 X23333 1 2 24 2 3 25 3 4 26 4 5 27 5 6 28 也就是说 header = T（TURE）是默认的状态，在这默认状态下，输出的data矩阵是一个5乘以2的矩阵，第一行作为了data的名字，如果 header = F（FALSE），则会现实原始的矩阵结果。

方法2： xls另存为txt格式然后用read.table ：如例子所示：

>data<-read.table("D:\work\data\1.txt",header = T) >data X1 X23 1 2 24 2 3 25 3 4 26 4 5 27 5 6 28

>data<-read.table("D:\work\data\1.txt",header = F) >data V1 V2 1 1 23 2 2 24 3 3 25 4 4 26 5 5 27 6 6 28 方法3：打开EXCEL，全选里面的内容，点击复制，然后在R中输入一下命令：数据分析培训

data <- read.table("clipboard", header = T, sep = 't') 结果如下所示：

>data <- read.table("clipboard", header = T, sep = 't') >data X1 X23 1 2 24 2 3 25 3 4 26 4 5 27 5 6 28 >data <- read.table("clipboard", header = F, sep = 't') >data V1 V2 1 1 23 2 2 24 3 3 25 4 4 26 5 5 27 6 6 28 使用这种方法的时候一定要注意复制！剪切板里面没有内容是无法运行的！

数据文件矩阵语言方法

# 上一篇：取个与Ruby对应的情侣英文名男的

# 下一篇：2017程序员该学习些什么技术