R语言数据结构-数据框&矩阵&列表

2023-02-25 12:21:02Python012

R语言数据结构-数据框&矩阵&列表,第1张

R语言数据结构主要有以下四种：

四种数据结构，重点掌握向量和 数据框

判断数据结构的函数： class()

向量的详细讲解在上一篇文章，以下主要讲数据框，矩阵，列表：

以下大部分操作使用的数据框为df

几个重要的函数：查看数据框的行数和列数，行名和列名；以及单独查行的数量，列的数量

数据框取子集有几种方法 ： $ 符号，坐标，名字，逻辑值

在 [,] 里，行在前面（左边），列在后面（右边），行与列用逗号 , 隔开： [行,列]

中括号里的逗号，表示维度的分割

数据框按照逻辑值取子集，TRUE对应的行/列留下，FALSE对应的行/列去掉。

修改第二列的列名，就是修改列名这个向量的第二个元素

https://blog.csdn.net/weixin_39718006/article/details/110516670

后续的笔记会有详细介绍

矩阵不能用 $ 符号取子集

t()：转置函数，行与列的互换

as.data.frame()：转换，把矩阵变为数据框 ，用as.matrix()函数也能把数据框变为矩阵

聚类，相似的行，相似的列会聚在一起。热图自动聚类，行和列的相对位置发生了变化，只是列与列，行与行之间的变化规律。

![热图自动聚类]]( https://upload-images.jianshu.io/upload_images/17511166-f6e2432a04cffbbe.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240 )

热图默认聚类，修改参数，不让聚类，热图与表达矩阵对应。

默认的设置不符合自己的预期，可以子啊作者允许的范围内定义。

查看函数帮助文档，参考修改，达到自己的要求。

列表没有列名和行名，只有元素的名字。列表可以由数据框，矩阵，向量，单独的一个数字都可以组成。

列表没有行和列的概念，只有元素，取子集的两种方式： [[]] ， $ ，

$ 有两个作用：数据框取子集和列表取子集。在矩阵和向量里不能用 $ 。

用 class() 函数更能具体说明问题，判断数据结构和数据类型

以上内容是听生信技能树小洁老师的 R语言线上课，根据自己的理解记录下来，小洁老师授课非常细心，对不同水平的同学都照顾到，并且补充很多技巧以及注意事项。

认识R语言的四种数据结构，小洁老师强调重点掌握向量和数据框，在实战中遇到很多数据结构都是数据框，表达矩阵可以转化为数据框，数据框的一列可以看做是一个向量。小洁老师把实战中会需要的操作融入到练习题，在实战中能联想起小洁老师讲过的知识点。

R语言中，和排序相关的常用函数有： order() ， sort() ， rank() ，一般是对向量进行操作，也可以对数据框的列进行操作。

1. order(..., decreasing = FALSE)

“...” 中可以是一个向量（数值型，字符型，逻辑型， 因子型 均可），也可以是多个向量（ 长度必须相同 ）

它返回的是排列后（默认是升序）的元素在该向量中所处的位置，即索引，所以返回的不是原来向量的那些数值，而是排序后那些数值所对应的位置。它在常在数据框中运用，可以根据某一列和某几列来调整数据框。

1.1 单个向量

1.2 多个向量（数据框的多列）

上面最左边的一列数值（不是var1这一列）就是 order(df$var1) 生成的，列var1的顺序就是order后的，注意和前面df 的列var1进行比较，还有一点要牢记的就是这种在数据框里的调整，是 整行变动(都按列var1来) 。故而本质上，对于数据框而言， order函数出来的是原始数据框中的行号，行号顺序一变，意味着行号代表的整行跟着变 。

接着再按列var2排序（注意是在列var1已经排好的基础上再按列var2重新排序，即此时列var1里的 非重复值的行顺序不会再变了，只有列var1里有重复值（数值相同的）的行才会变换 ，而且是按照列var2来变换，。如还要按其它列再排，以此类推）：

最后再按列var3排序，此时只有列var2中 有重复值的行 （当然这时var1肯定也是重复的）才会变换------这里是含有9的那两行，并且是按照这些重复值对应到列var3的那些行的数值（数值1和2）来变的

总结提升，order()函数中，如果第一个向量（或者说是数据框里你想要根据它来调整的那一列）里没有重复值，那么按照后面的所有向量（不管有多少个）的重排都不会进行（或者说重排的结果不会变），order(vec1,vec2,vec3,...) 返回的行号及其顺序和 order(vec1) 的是一样。

同理，也可以处理对应的行（比如矩阵或是数据框的行）

1.3 factor（因子型向量）

2. sort(x, decreasing = FALSE)

x 只能是一个向量（数值型，字符型，逻辑型， 因子型 均可）

返回的是排序后（默认是升序）的那个数值向量（ 还是那些数值，只不过是排序过了的 ）

3. rank(x, na.last = TRUE)

求秩的函数，x 只能是 一个**向量（数值型，字符型，逻辑型）， 该向量一般不会有重复值 ，返回的是该向量中对应元素的“排名”，即元素顺序它不会改变，只是告诉你每个元素在整个向量中的名次（如果要排序（默认是升序）的话）。

如果向量有重复值，出现的结果会有些不太好处理

匹配两个向量，返回的是第一个向量 x中的各个元素在第二个向量 y中所匹配的元素的位置值（索引，下标值），即 返回的是第二个向量的下标值组成的向量 。