转置之后的数据结构如下
他发现转置之后多了一行,也就是有了geneid这一行,和他预期的不符合。按照预期,geneid这一行应该是成为列名,而不是作为输出的第一行。那么,为什么会出现这个情况呢?这就需要从 t() 这个函数说起。
使用 ?t ,你会得到关于这个函数的函数说明。在函数的Detials部分中,有这样一段
即,数据框会先用 as.matrix() 转成矩阵格式,然后再引用 t() ,最终你对一个数据框使用 t() 函数时,你会得到一个矩阵,而非原先的data.frame.
举个例子:
因为矩阵要求存放的内容是同一种数据类型,对于输入的数据框而言,一般都会有字符串,数值这些,那么最终都会被转成字符串。
对于最开始的问题而言,因为原先的数据框的第一列是字符串,那么自然而然会把所有的数据都变成字符串,然后把第一列变成第一行。而如果要实现他真正的目的,需要先将第第一行变成行名,然后删掉第一行在转置,也就是
其结果就是先保证原来的数据框里面都是数值数据,而不是让第一列充当行名。
延伸一下,对于超过2维的数组,我们要用到 aperm 函数才能对数据进行转置。当然,超过二维的转置,你甚至都无法直观感受到这是一个什么过程。
之前使用了均值、求和和计数
median()用法和mean()类似,只不过是中位数而已
注:mad()与IQR()基本等价,但是IQR()更适合有离群点的情况。
这三个函数的作用相当于x[1]、x[2]、x[length(x)]
通过此函数也可以找出最早和最晚出发的航班
n():不需要任何参数,返回当前分组的大小
sum(!is.na(x)):计算非缺失值的数量
n_distinct(x):计算唯一值的数量
count()函数:用于只需要计数的情况
例如:
计算哪个目的地有最多的航空公司?
count()函数用法举例:计算目的地不同的飞机数量
count()函数中可以添加加权变量,例如distance,用于计算飞机飞行里程(相当于求和)
以下一例:找出出发时间小于5:00的航班总数
以下一例:找出延误超过一小时的航班比例