R语言系列之1------数据类型

Python016

R语言系列之1------数据类型,第1张

最近身体状况不太好的我,已经懒惰到不太想用脑子思考问题了,但也总不能什么事情都不做就这样蹉跎岁月吧,于是想着把自己之前的知识总结总结。今天就先把R语言的知识总结总结吧。

R语言是一个应用非常广泛的并且免费的用于统计计算和作图的计算机语言,无论什么和数据分析有关的行业,基本都会用到R。R 环境由一组数据操作,计算和图形展示的工具构成。它的特色在于:1.有效的数据处理和保存机制;2.完整的数组和矩阵计算操作符;3.连贯而又完整的数据分析工具;4.图形工具可以对数据直接进行分析和展示,同时可用于多种图形设备;5.它是一种相当完善,简洁而又高效的程序设计语言(也就是‘S’)。

基本的数据类型:

向量有一些基本运算:

求三角函数的值:sin(x),cos(x),tan(x)

向量开根号:sqrt(x)

求向量的和:sum(x)

向量的最大值和最小值:max(x) 和min(x)。

向量的范围:range (x)

向量的长度:length(x)

向量的均值:mean(x)

向量的方差:var(x)

向量的标准差:sd(x)

向量的累乘:prod(x)

数组可以看作是带有多个下标类型相同的元素集合,如数值型。

维度向量(dimension vector)是一个正整数向量。如果它的长度为k,那么该数组就是k-维的,例如矩阵是2-维数组。

数组只允许单一类型的值出现。

在R中数组用array()函数建立。

矩阵是一个2维的数组,一般用matrix()来构建一个矩阵,array()也可以创建一个2维数组(矩阵)。

例子:定义一个从1到20,行数为4,列数为5的矩阵。

向量的合并:

也可以用cbind()和rbind()函数将相同长度的向量接合成矩阵。

t()可以将矩阵进行转置,或用aperm()代替。

同样矩阵也可以做合并,同样是用rbind和cbind。

rbind和cbind,除能合并等长的向量外,还能合并数据框和矩阵。

矩阵工具:1).函数nrow(A) 和ncol(A) 将会分别返回矩阵A 的行数和列数.2).colnames(A)rownames(A)会分别返回矩阵A 的列名和行名。3).将一个数组强制转换成简单向量的标准方法是用函数as.vector(),或用c()。

因子(factor)是一个对等长的其他向量元素进行分类(分组)的向量对象。 R同时提供有序(ordered)和无序(unordered)因子。有序意味着以字母排序。

函数factor()引入因子。

函数levels()表示因子的水平。

有序因子:函数ordered() 用来创建有序因子。在其他方面,函数ordered() 和factor() 基本完全一样。大多数情况下,有序和无序因子的唯一差别在于前者显示的时候反应了各水平的顺序。

7.1. R 的列表(list)是一个以对象的有序集合构成的对象。列表中包含的对象又称为它的分量(components)。

7.2. 分量可以是不同的模式或类型,如一个列表可以同时包括数值向量,逻辑向量,矩阵,复向量,字符数组,函数等等。

7.3. 列表的建立采用list()函数,列表通过[[index/name]]进行访问。

8.1. 数据框(data frame)是一个属于“data.frame” 类的列表。

8.2. 数据框常常会被看作是一个由不同模式和属性的列构成的矩阵。它能以矩阵形式出现,行列可以通过矩阵的索引习惯访问。

8.3. 用data.frame()函数构建数据框。

R语言是一个开源、跨平台的科学计算和统计分析软件包,具有丰富多样、强大的的统计功能和数据分析功能,R语言是主要用于统计分析、绘图的语言和操作环境。

R中的统计分析通过使用许多内置函数来执行。 这些函数大多数是R基础包的一部分。 这些函数将R向量作为输入和参数,并给出结果。

模式是一组数据中出现次数最多的值。 Unike平均值和中位数,模式可以同时包含数字和字符数据。

R语言没有标准的内置函数来计算模式。 因此,我们创建一个用户函数来计算R语言中的数据集的模式。该函数将向量作为输入,并将模式值作为输出。

在这之前我们学习了聚类分析的基本概念、几种计算层次聚类的方法、进一步解读和比较层次聚类结果以及非层次聚类,这些聚类方法都是基于物种多度数据对样方进行分组,当然这些聚类方法也可以用于其他类型数据,特别是环境数据,所以本次就是介绍用 环境数据来进行聚类分析

本次的内容不多,主要分为两个部分:

我们之前学习的主要是内部的准则(例如轮廓法或其他聚类质量指数)都是仅仅依赖物种数据,还不足以选择最佳样方聚类结果。选择最终的聚类结果有时也需要基于生态学解释。生态学解释可视为样方聚类的外部验证。

下面的我们将学习用 样方聚类簇为因子 去对 解释变量进行方差分析

尽管在方差分析中,是将物种组成数据获得的聚类的分组结果作为解释变量,但是从生态学角度去分析,实际上是寻找环境因子对样方的分组的解释 。

以下可以使用作者编写的通用函数,执行方差分析的多重比较和显示带有字母的环境变量分组后箱线图多重比较结果。不同字母表示组间有显著差异(按中位线递减顺序组)。

基于上面这些分析和图示,能确定这组鱼类群落的生态习性。

当然,我们也可以基于环境变量对样方进行聚类(类似获得生境类型的分组),然后通过指示种分析(以后会讲)检验不同生境内物种分布是否有差异。指示种分析过程中基于不同的生境类型物种需要逐个分析。因此,需要考虑多个物种指示种分析时会产生多重检验的统计学问题。

另外,作为替代方案,之后第6章会提出基于排序的多元方法,也可以直接描述和检验物种-生境关系。请期待。

要是想直接比较分别基于物种数据和环境数据的样方聚类结果该怎么办呢?

同时列联表分析同样适用于比较分别基于物种数据和分类(定性)解释变量数据的样方聚类结果。

用环境数据进行比较的内容就是这些,虽然不是很多,但是要联系之前学习的才能更好的掌握它,所以还是有难度的,主要是用 外部数据进行类型比较(方差分析途径)和双类型比较(列联表分析 两部分内容,好好学习掌握他。

谢谢你的阅读,请期待下一期数量生态学:R语言的应用 第四章 聚类分析5—聚类物种集合

《数量生态学:R语言的应用》第三章-R模式

《数量生态学:R语言的应用》第二版第三章-关联测度与矩阵------Q模式

《数量生态学:R语言的应用》第二版笔记2

《数量生态学——R语言的应用》第二版阅读笔记--绪论和第二章(一部分)

R语言 pheatmap 包绘制热图(基础部分)

R语言pheatmap包绘制热图进阶教程

使用PicGo和gitee搭建图床

组间分析—T检验、R语言绘图

Rmarkdown的xaringan包来制作PPT

htlm文件部署到个人网站