【R语言】--- 宽数据和长数据之间的相互转换

2023-02-24 02:13:01Python018

【R语言】--- 宽数据和长数据之间的相互转换,第1张

宽数据是指数据集对所有的变量进行了明确的细分，各变量的值不存在重复循环的情况也无法归类。数据总体的表现为变量多而观察值少。每一列为一个变量，每一行为变量所对应的值。例如s1-s10为变量名：

长数据是指数据集中的变量没有做明确的细分，即变量中至少有一个变量中的元素存在值严重重复循环的情况（可以归为几类），表格整体的形状为长方形，即变量少而观察值多。一列包含了所有的变量，而另一列则是与之相关的值。例如S包含了所有的变量名：

长数据与宽数据之间的转换通常是作图需要，宽数据格式无法利用ggplot做出图形。例如分组柱状图等均需要长数据。此外，当数据清洗完成后，导入某些软件时，例如导入SPSS软件进行方差分析或者相关性分析等时候，宽数据格式会更好。因此需要对数据进行长宽格式相互转换。

目前常用的转换方式有两种，分别是手动复制粘贴和软件辅助(本文仅涉及R语言：R语言主要有tidyr包和reshape2包)。如数据量小的话，手动复制粘贴也是可以的；但当数据量十分庞大时，利用软件转换还是比较方便的。本文介绍R语言的tidyr包和reshape2包，掌握好这两个包的转换方法，数据前处理将会轻松很多。

可以通过R语言判断两种方法转化后的数据是否完全一致

可以用R语言判断两种方法转化后的数据是否完全一致，返回TRUE则为完全相等

由于data_wide_s的s1-s10并非按照数字顺序排列,因此有FALSE,但实际上是没有问题的

通过这里也可以看到，两种方法转换的数据观测值数和变量数一致，说明没有问题。

[1] https://blog.csdn.net/Ray_zhu/article/details/78679913

[2] https://cran.r-project.org/web/packages/tidyr/index.html

[3] https://cran.r-project.org/web/packages/reshape2/index.html

假设有两组栅格数据，一组代表2019年中国每月降雨量，一组代表2019年中国每月植被叶面积指数（LAI）。想要得到中国月降水量与LAI的相关性分布，那么需要对两组栅格数据对应的栅格点进行逐栅格的相关性分析。

将降水数据导入栅格栈中，这个过程可以理解为将降水数据按时间顺序从上到下堆叠。同理，按相同的时间顺序将LAI数据堆叠。值得一提的是，stack（）函数在堆叠栅格数据时是按文件名拼音和数字大小顺序自动堆叠的，具体规则可以亲自尝试。最后，将这两个栅格栈合并成一个。

对相关性分析函数稍作改变。

以上方法是可以推广的，线性回归函数lm（）和相关性分析函数cor（）的输入都可以是向量，因此只要函数支持向量输入，理论上讲都可以类比上述过程实现。但是如果函数只支持数据框输入，如gbm包中的函数gbm（），那就只能另辟蹊径了。

使用R语言的时候，如果是少量数据，不妨使用c()或其他函数进行创建；但是对于大量数据，最好还是先通过其他更方便的软件创建数据文件，然后使用R读入这个文件。

.csv是非常好的数据文件格式，跨平台支持非常好。我在Excel或者SPSS中创建的数据，只要存为csv格式，就可以使用几乎任何数据处理软件对这些数据进行处理了。使用通用格式在多人合作、不同版本兼容等常见行为中，优势十分明显。另外，之所以使用不同的数据处理软件，第一，可以取长补短。比如有些工作SPSS很复杂的，可以用R语言几行命令搞定。第二，可以进行软件间处理结果对照，发现问题。

R语言中读取外部文件的最基本函数是read.table()，还有用来读csv的read.csv()， .csv是非常好的数据文件格式，跨平台支持非常好。。

输入help（read.table）命令，就看到了关于数据输入函数的说明。

数据变量栅格函数语言

# 上一篇：java猜数字小游戏。用eclipse写的

# 下一篇：goland map底层原理