长数据是指数据集中的变量没有做明确的细分,即变量中至少有一个变量中的元素存在值严重重复循环的情况(可以归为几类),表格整体的形状为长方形,即 变量少而观察值多。一列包含了所有的变量,而另一列则是与之相关的值。例如S包含了所有的变量名:
长数据与宽数据之间的转换通常是作图需要,宽数据格式无法利用ggplot做出图形。例如分组柱状图等均需要长数据。此外,当数据清洗完成后,导入某些软件时,例如导入SPSS软件进行方差分析或者相关性分析等时候,宽数据格式会更好。因此需要对数据进行长宽格式相互转换。
目前常用的转换方式有两种,分别是手动复制粘贴和软件辅助(本文仅涉及R语言:R语言主要有tidyr包和reshape2包)。如数据量小的话,手动复制粘贴也是可以的;但当数据量十分庞大时,利用软件转换还是比较方便的。本文介绍R语言的tidyr包和reshape2包,掌握好这两个包的转换方法,数据前处理将会轻松很多。
可以通过R语言判断两种方法转化后的数据是否完全一致
可以用R语言判断两种方法转化后的数据是否完全一致,返回TRUE则为完全相等
由于data_wide_s的s1-s10并非按照数字顺序排列,因此有FALSE,但实际上是没有问题的
通过这里也可以看到,两种方法转换的数据观测值数和变量数一致,说明没有问题。
[1] https://blog.csdn.net/Ray_zhu/article/details/78679913
[2] https://cran.r-project.org/web/packages/tidyr/index.html
[3] https://cran.r-project.org/web/packages/reshape2/index.html
如下图所示
可以看到通过pivot_longer( )函数很轻松完成了宽表转长表
经过上面的格式转换我们整理好了数据,接下来进行一个简单的可视化