长数据是指数据集中的变量没有做明确的细分,即变量中至少有一个变量中的元素存在值严重重复循环的情况(可以归为几类),表格整体的形状为长方形,即 变量少而观察值多。一列包含了所有的变量,而另一列则是与之相关的值。例如S包含了所有的变量名:
长数据与宽数据之间的转换通常是作图需要,宽数据格式无法利用ggplot做出图形。例如分组柱状图等均需要长数据。此外,当数据清洗完成后,导入某些软件时,例如导入SPSS软件进行方差分析或者相关性分析等时候,宽数据格式会更好。因此需要对数据进行长宽格式相互转换。
目前常用的转换方式有两种,分别是手动复制粘贴和软件辅助(本文仅涉及R语言:R语言主要有tidyr包和reshape2包)。如数据量小的话,手动复制粘贴也是可以的;但当数据量十分庞大时,利用软件转换还是比较方便的。本文介绍R语言的tidyr包和reshape2包,掌握好这两个包的转换方法,数据前处理将会轻松很多。
可以通过R语言判断两种方法转化后的数据是否完全一致
可以用R语言判断两种方法转化后的数据是否完全一致,返回TRUE则为完全相等
由于data_wide_s的s1-s10并非按照数字顺序排列,因此有FALSE,但实际上是没有问题的
通过这里也可以看到,两种方法转换的数据观测值数和变量数一致,说明没有问题。
[1] https://blog.csdn.net/Ray_zhu/article/details/78679913
[2] https://cran.r-project.org/web/packages/tidyr/index.html
[3] https://cran.r-project.org/web/packages/reshape2/index.html
1、以读入txt格式的数据为例子,第一步打开R软件包,读入数据,如下图所示:
2、使用转换矩阵命令as.matrix(),使读入的数据变成矩阵格式,如下图所示:
3、验证是否转换成功,命令is.matrix()返回TRUE表示转换成功,如下图所示: