R语言数据集

Python013

R语言数据集,第1张

1. 向量 Vector

    向量是用于储存数值型、字符型或逻辑型数据的一维数组。执行组合功能能的函数 可用来创建向量。

单个向量中的数据必须拥有相同的类型或模式(即数值型、字符型或逻辑型)。同一向量中无法混杂不同模式的数据。

2. 矩阵 Matrix

    矩阵是一个二维数组,知识每个元素都拥有相同的模式(数值型、字符型或逻辑型)。可通过函数 创建矩阵。

3. 数组 Array

    数组与矩阵类似,但是维度可以大于2。数组可通过 函数创建。

    数组是矩阵的一个自然推广。它们在编写新的统计方法时很有用。像矩阵一样,数组中的数据也只能拥有一种模式。从数组中选取元素的方法与矩阵相同。

4. 数据框 Data Frame

    这是R语言最常用的数据类型。不同的列可以包含不同模式的数据。每一列数据的模式必须相同,且必须等长。数据框可通过函数 创建。

5. 列表 List

    列表是一些对象(或成分)的有序集合。列表允许你整合若干(可能无关的)对象到单个对象名下。例如,某个列表中可能是若干向量、矩阵、数据框,甚至其他列表的组合。可以使用函数 创建列表。

    许多R的运行结果都是以列表的形式返回的。需要取出其中哪些成分由分析人员决定。

rivers指的是北美141条河流长度,第78个元素值为:350

R语言是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。

R作为一种统计分析软件,是集统计分析与图形显示于一体的。它可以运行于UNIX、Windows和Macintosh的操作系统上,而且嵌入了一个非常方便实用的帮助系统,相比于其他统计分析软件,R还有以下特点:

1.R是自由软件。这意味着它是完全免费,开放源代码的。可以在它的网站及其镜像中下载任何有关的安装程序、源代码、程序包及其源代码、文档资料。标准的安装文件自身就带有许多模块和内嵌统计函数,安装好后可以直接实现许多常用的统计功能。

2.R是一种可编程的语言。作为一个开放的统计编程环境,语法通俗易懂,很容易学会和掌握语言的语法。而且学会之后,我们可以编制自己的函数来扩展现有的语言。这也就是为什么它的更新速度比一般统计软件,如SPSS、SAS等快得多。大多数最新的统计方法和技术都可以在R中直接得到。

3.所有R的函数和数据集是保存在程序包里面的。只有当一个包被载入时,它的内容才可以被访问。一些常用、基本的程序包已经被收入了标准安装文件中,随着新的统计分析方法的出现,标准安装文件中所包含的程序包也随着版本的更新而不断变化。在另外版安装文件中,已经包含的程序包有:baseR的基础模块、mle极大似然估计模块、ts时间序列分析模块、mva多元统计分析模块、survival生存分析模块等等。

4.R具有很强的互动性。除了图形输出是在另外的窗口处,它的输入输出窗口都是在同一个窗口进行的,输入语法中如果出现错误会马上在窗口中得到提示,对以前输入过的命令有记忆功能,可以随时再现、编辑修改以满足用户的需要。输出的图形可以直接保存为JPG、BMP、PNG等图片格式,还可以直接保存为PDF文件。另外,和其他编程语言和数据库之间有很好的接口。

5.如果加入R的帮助邮件列表一,每天都可能会收到几十份关于R的邮件资讯。可以和全球一流的统计计算方面的专家讨论各种问题,可以说是全世界最大、最前沿的统计学家思维的聚集地。

R是基于S语言的一个GNU项目,所以也可以当作S语言的一种实现,通常用S语言编写的代码都可以不作修改的在R环境下运行。R的语法是来自Scheme。R的使用与S-PLUS有很多类似之处,这两种语言有一定的兼容性。S-PLUS的使用手册,只要稍加修改就可作为R的使用手册。所以有人说:R,是S-PLUS的一个“克隆”。

但是请不要忘了:R是免费的(Risfree)。R语言源代码托管在github,具体地址可以看参考资料。

R语言的下载可以通过CRAN的镜像来查找。

R语言有域名为.cn的下载地址,有六个,其中两个由Datagurn,由中国科学技术大学提供的。R语言Windows版,其中由两个下载地点是Datagurn和USTC提供的。

前记:

正文:

部分: 5种数据对象类型

1.1 向量(vector)

1.2 矩阵(matrix)

向量+维度属性(nrow ncol)

1.3 数组(array)

与矩阵相似,但维度可大于2(说白了元素都是数 维度随便设)

1.4 列表(list)

可以包含不同类型

1.5 因子(factor)

整数向量+标签

1.6 缺失值(missing value)

NA:各种类型的缺失值

NAN:数值型的缺失值

NAN 属于 NA

is.na 和 is.nan 判断向量中是否有缺失值

1.7 数据框(data.frame)

存储表格数据,视为各元素长度相同的 列表

1.8 日期与时间(date, time)

日期

时间

POSIXct 整数 常用于存入数据框

POSIXIt 列表 还包括年月日等信息

后续请参考:

R语言基础之第 部分 : 操纵数据 取子集

R语言基础之第 部分:重要函数 apply族函数 的使用

R语言基础之第 部分 : 排序

R语言基础之第 部分 : 总结数据信息