R语言数据转换(三)2021.3.1

Python037

R语言数据转换(三)2021.3.1,第1张

数据全选复制,建立新sheet,用 Ctrl+Alt+V 快捷键进行选择复制,在弹出的菜单框中勾选转置选项。

t函数 :用t()即可实现行和列的翻转

transform函数如果不想覆盖原先的值,可以这样操作,将修改后的值赋值给一个新的列名,这样原始数据可以保存下来

在R中,和排序相关的函数有三,sort,order,rank函数。

sort是对向量进行排序(只能用于向量不能用于数据框),返回结果向量,数值按从小到大排序,字符按从A到Z排序,总体来说就是按ASCAll码的顺序进行排序。若要求从大到小排序则有两种方法。

引申

要理解的是sort只能对某行或某列排序,而无法对整体进行排序,但是我们可以通过数据框索引,将索引值用sort函数,访问出的结果就会是有序的

例如将列名排序并访问

order函数也可以对向量进行排序,但是返回后的位置是向量的位置而不是结果,通过下图中rivers数据集的对比就可以知晓。

同样的,我们也可以使用order对数据框进行排序

若想按照从大到小排列,也可以以下方法

多条件排序时,第一个条件最为重要,第二个条件是为了把第一个条件下的相同值数据在第二个条件下进行排序。

宽数据是指数据集对所有的变量进行了明确的细分,各变量的值不存在重复循环的情况也无法归类。数据总体的表现为 变量多而观察值少。每一列为一个变量,每一行为变量所对应的值。例如s1-s10为变量名:

长数据是指数据集中的变量没有做明确的细分,即变量中至少有一个变量中的元素存在值严重重复循环的情况(可以归为几类),表格整体的形状为长方形,即 变量少而观察值多。一列包含了所有的变量,而另一列则是与之相关的值。例如S包含了所有的变量名:

长数据与宽数据之间的转换通常是作图需要,宽数据格式无法利用ggplot做出图形。例如分组柱状图等均需要长数据。此外,当数据清洗完成后,导入某些软件时,例如导入SPSS软件进行方差分析或者相关性分析等时候,宽数据格式会更好。因此需要对数据进行长宽格式相互转换。

目前常用的转换方式有两种,分别是手动复制粘贴和软件辅助(本文仅涉及R语言:R语言主要有tidyr包和reshape2包)。如数据量小的话,手动复制粘贴也是可以的;但当数据量十分庞大时,利用软件转换还是比较方便的。本文介绍R语言的tidyr包和reshape2包,掌握好这两个包的转换方法,数据前处理将会轻松很多。

可以通过R语言判断两种方法转化后的数据是否完全一致

可以用R语言判断两种方法转化后的数据是否完全一致,返回TRUE则为完全相等

由于data_wide_s的s1-s10并非按照数字顺序排列,因此有FALSE,但实际上是没有问题的

通过这里也可以看到,两种方法转换的数据观测值数和变量数一致,说明没有问题。

[1] https://blog.csdn.net/Ray_zhu/article/details/78679913

[2] https://cran.r-project.org/web/packages/tidyr/index.html

[3] https://cran.r-project.org/web/packages/reshape2/index.html