【R语言】--- 宽数据和长数据之间的相互转换

Python012

【R语言】--- 宽数据和长数据之间的相互转换,第1张

数据是指数据集对所有的变量进行了明确的细分,各变量的值不存在重复循环的情况也无法归类。数据总体的表现为 变量多而观察值少。每一列为一个变量,每一行为变量所对应的值。例如s1-s10为变量名:

长数据是指数据集中的变量没有做明确的细分,即变量中至少有一个变量中的元素存在值严重重复循环的情况(可以归为几类),表格整体的形状为长方形,即 变量少而观察值多。一列包含了所有的变量,而另一列则是与之相关的值。例如S包含了所有的变量名:

长数据与宽数据之间的转换通常是作图需要,宽数据格式无法利用ggplot做出图形。例如分组柱状图等均需要长数据。此外,当数据清洗完成后,导入某些软件时,例如导入SPSS软件进行方差分析或者相关性分析等时候,宽数据格式会更好。因此需要对数据进行长宽格式相互转换。

目前常用的转换方式有两种,分别是手动复制粘贴和软件辅助(本文仅涉及R语言:R语言主要有tidyr包和reshape2包)。如数据量小的话,手动复制粘贴也是可以的;但当数据量十分庞大时,利用软件转换还是比较方便的。本文介绍R语言的tidyr包和reshape2包,掌握好这两个包的转换方法,数据前处理将会轻松很多。

可以通过R语言判断两种方法转化后的数据是否完全一致

可以用R语言判断两种方法转化后的数据是否完全一致,返回TRUE则为完全相等

由于data_wide_s的s1-s10并非按照数字顺序排列,因此有FALSE,但实际上是没有问题的

通过这里也可以看到,两种方法转换的数据观测值数和变量数一致,说明没有问题。

[1] https://blog.csdn.net/Ray_zhu/article/details/78679913

[2] https://cran.r-project.org/web/packages/tidyr/index.html

[3] https://cran.r-project.org/web/packages/reshape2/index.html

R语言-数组到矩阵的转换

1、问题:

有一个很大的三维数组,需要转换为一个矩阵,是否能在R中用循环语句或者其他方式实现?

三维数组(3, 2, 3)类似下面形式:

, , 1

[,1] [,2]

[1,]14

[2,]25

[3,]36

, , 2

[,1] [,2]

[1,]7 10

[2,]8 11

[3,]9 12

, , 3

[,1] [,2]

[1,] 13 16

[2,] 14 17

[3,] 15 18

希望转换后的矩阵(6, 3)如下:

1713

41016

2814

51117

3915

61218

2、解答:

基于问题数据的特点,可直接用行组合就可以,避免使用循环计算,在进行大数据处理时可显著提高处理效率。

可以看到最终数据呈横向扩展,而与第3维数据的个数无关。

1、假定有数据:

>a <- array(1:18, dim=c(3,2,3))

>a

, , 1

[,1] [,2]

[1,]14

[2,]25

[3,]36

, , 2

[,1] [,2]

[1,]7 10

[2,]8 11

[3,]9 12

, , 3

[,1] [,2]

[1,] 13 16

[2,] 14 17

[3,] 15 18

2、合成后的矩阵为:

>b<- rbind(a[1,,],a[2,,],a[3,,])

一句话搞定。

3、查看结果

>b

[,1] [,2] [,3]

[1,]17 13

[2,]4 10 16

[3,]28 14

[4,]5 11 17

[5,]39 15

[6,]6 12 18

4、使用更多数据测试:

>a <- array(1:24, dim=c(3,2,4))

>a

, , 1

[,1] [,2]

[1,]14

[2,]25

[3,]36

, , 2

[,1] [,2]

[1,]7 10

[2,]8 11

[3,]9 12

, , 3

[,1] [,2]

[1,] 13 16

[2,] 14 17

[3,] 15 18

, , 4

[,1] [,2]

[1,] 19 22

[2,] 20 23

[3,] 21 24

>b<-rbind(a[1,,],a[2,,],a[3,,])

>b

[,1] [,2] [,3] [,4]

[1,]17 13 19

[2,]4 10 16 22

[3,]28 14 20

[4,]5 11 17 23

[5,]39 15 21

[6,]6 12 18 24

3、另外的方法

1、apply()

apply(x, 3, t)

apply()函数,可将一个任意函数“应用”到矩阵、数组、数据框的任何维度上。apply函数的使用格式为:

apply(x, MARGIN, FUN, ...)

其中,x为数据对象,MARGIN是维度的下标,FUN是由你指定的函数,而...则包括了任何想传递给FUN的参数。在矩阵或数据框中,MARGIN=1表示行,MARGIN=2表示列。

2、aperm()

(1)aperm() 函数,Transpose an array by permuting its dimensions and optionally resizingit.

Transpose变换顺序

permute 序列改变,重新排列一个数组

该函数意即改变数组的维度顺序,维度1,2,3按不同顺序进行变换。

(2)array()函数,用法array(data = NA, dim = length(data), dimnames = NULL)

array(aperm(x, c(2,1,3)), c(6,3))

将数组x维度改变(1->2,2->1,3->3)后:

aperm(x, c(2,1,3))

再变换成新的数组:

array(aperm(x, c(2,1,3)), c(6,3))

注意:

其实这样做有点多余,可直接应用数组变换:

array(x, c(6,3))

结果与上述方法结果一样。

如果是三维数量是4,则公式为:

array(x,c(6,4))

依此类推。

最近身体状况不太好的我,已经懒惰到不太想用脑子思考问题了,但也总不能什么事情都不做就这样蹉跎岁月吧,于是想着把自己之前的知识总结总结。今天就先把R语言的知识总结总结吧。

R语言是一个应用非常广泛的并且免费的用于统计计算和作图的计算机语言,无论什么和数据分析有关的行业,基本都会用到R。R 环境由一组数据操作,计算和图形展示的工具构成。它的特色在于:1.有效的数据处理和保存机制;2.完整的数组和矩阵计算操作符;3.连贯而又完整的数据分析工具;4.图形工具可以对数据直接进行分析和展示,同时可用于多种图形设备;5.它是一种相当完善,简洁而又高效的程序设计语言(也就是‘S’)。

基本的数据类型:

向量有一些基本运算:

求三角函数的值:sin(x),cos(x),tan(x)

向量开根号:sqrt(x)

求向量的和:sum(x)

向量的最大值和最小值:max(x) 和min(x)。

向量的范围:range (x)

向量的长度:length(x)

向量的均值:mean(x)

向量的方差:var(x)

向量的标准差:sd(x)

向量的累乘:prod(x)

数组可以看作是带有多个下标类型相同的元素集合,如数值型。

维度向量(dimension vector)是一个正整数向量。如果它的长度为k,那么该数组就是k-维的,例如矩阵是2-维数组。

数组只允许单一类型的值出现。

在R中数组用array()函数建立。

矩阵是一个2维的数组,一般用matrix()来构建一个矩阵,array()也可以创建一个2维数组(矩阵)。

例子:定义一个从1到20,行数为4,列数为5的矩阵。

向量的合并:

也可以用cbind()和rbind()函数将相同长度的向量接合成矩阵。

t()可以将矩阵进行转置,或用aperm()代替。

同样矩阵也可以做合并,同样是用rbind和cbind。

rbind和cbind,除能合并等长的向量外,还能合并数据框和矩阵。

矩阵工具:1).函数nrow(A) 和ncol(A) 将会分别返回矩阵A 的行数和列数.2).colnames(A)rownames(A)会分别返回矩阵A 的列名和行名。3).将一个数组强制转换成简单向量的标准方法是用函数as.vector(),或用c()。

因子(factor)是一个对等长的其他向量元素进行分类(分组)的向量对象。 R同时提供有序(ordered)和无序(unordered)因子。有序意味着以字母排序。

函数factor()引入因子。

函数levels()表示因子的水平。

有序因子:函数ordered() 用来创建有序因子。在其他方面,函数ordered() 和factor() 基本完全一样。大多数情况下,有序和无序因子的唯一差别在于前者显示的时候反应了各水平的顺序。

7.1. R 的列表(list)是一个以对象的有序集合构成的对象。列表中包含的对象又称为它的分量(components)。

7.2. 分量可以是不同的模式或类型,如一个列表可以同时包括数值向量,逻辑向量,矩阵,复向量,字符数组,函数等等。

7.3. 列表的建立采用list()函数,列表通过[[index/name]]进行访问。

8.1. 数据框(data frame)是一个属于“data.frame” 类的列表。

8.2. 数据框常常会被看作是一个由不同模式和属性的列构成的矩阵。它能以矩阵形式出现,行列可以通过矩阵的索引习惯访问。

8.3. 用data.frame()函数构建数据框。