【R语言】--- 宽数据和长数据之间的相互转换

Python012

【R语言】--- 宽数据和长数据之间的相互转换,第1张

数据是指数据集对所有的变量进行了明确的细分,各变量的值不存在重复循环的情况也无法归类。数据总体的表现为 变量多而观察值少。每一列为一个变量,每一行为变量所对应的值。例如s1-s10为变量名:

长数据是指数据集中的变量没有做明确的细分,即变量中至少有一个变量中的元素存在值严重重复循环的情况(可以归为几类),表格整体的形状为长方形,即 变量少而观察值多。一列包含了所有的变量,而另一列则是与之相关的值。例如S包含了所有的变量名:

长数据与宽数据之间的转换通常是作图需要,宽数据格式无法利用ggplot做出图形。例如分组柱状图等均需要长数据。此外,当数据清洗完成后,导入某些软件时,例如导入SPSS软件进行方差分析或者相关性分析等时候,宽数据格式会更好。因此需要对数据进行长宽格式相互转换。

目前常用的转换方式有两种,分别是手动复制粘贴和软件辅助(本文仅涉及R语言:R语言主要有tidyr包和reshape2包)。如数据量小的话,手动复制粘贴也是可以的;但当数据量十分庞大时,利用软件转换还是比较方便的。本文介绍R语言的tidyr包和reshape2包,掌握好这两个包的转换方法,数据前处理将会轻松很多。

可以通过R语言判断两种方法转化后的数据是否完全一致

可以用R语言判断两种方法转化后的数据是否完全一致,返回TRUE则为完全相等

由于data_wide_s的s1-s10并非按照数字顺序排列,因此有FALSE,但实际上是没有问题的

通过这里也可以看到,两种方法转换的数据观测值数和变量数一致,说明没有问题。

[1] https://blog.csdn.net/Ray_zhu/article/details/78679913

[2] https://cran.r-project.org/web/packages/tidyr/index.html

[3] https://cran.r-project.org/web/packages/reshape2/index.html

1、以读入txt格式的数据为例子,第一步打开R软件包,读入数据,如下图所示:

2、使用转换矩阵命令as.matrix(),使读入的数据变成矩阵格式,如下图所示:

3、验证是否转换成功,命令is.matrix()返回TRUE表示转换成功,如下图所示: