R语言的tabulate函数

Python022

R语言的tabulate函数,第1张

tabulate takes the integer-valued vector bin and counts the number of times each integer occurs in it.

tablate获取整数值向量bin,并统计每个整数在其中出现的次数。

位置1代表数字1在向量中出现的次数

位置2代表数字2在向量中出现的次数

。。。

1出现0次,2出现1次,3出现2次,4出现0次,因为位置设置到4,所以无法看到5出现的次数。

“参考网址1”中提到如果只是对整数运算(运算过程和结果都只使用整数),没有必要使用“double”(8 byte),而应该用更小的“integer”(4 byte)。使用storage.mode(x)查看对象存数的模式,storage.mode(x) <- 进行赋值;使用format(object.size(a), units = 'auto')查看对象占用的内存空间(此处有疑问,即在R中每个integer到底占用了多大的空间?)。

需要解释gc()函数,可以查看内存使用情况。同样,在清除了大的对象之后,使用gc()以释放内存使用空间。

李航在”参考网址2“中提到,对于大矩阵的操作,尽量避免使用cbind和rbind之类,因为这会让内存不停地分配空间。“对于长度增加的矩阵,尽量先定义一个大矩阵,然后逐步增加”和“注意清除中间对象”。

使用bigmemory家族:bigmemory, biganalytics, synchronicity, bigtabulate and bigalgebra, 同时还有

biglm。

bigmemory package的使用:

1. 建立big.memory对象

bigmemory采用C++的数据格式来“模仿”R中的matrix。

编写大数据格式文件时候,可以先建立filebacked.big.matrix

big.matrix(nrow, ncol, type = options()$bigmemory.default.type, init = NULL, dimnames = NULL, separated = FALSE, backingfile = NULL, backingpath = NULL, descriptorfile = NULL, shared = TRUE)

filebacked.big.matrix(nrow, ncol, type = options()$bigmemory.default.type, init = NULL, dimnames = NULL, separated = FALSE, backingfile = NULL, backingpath = NULL, descriptorfile = NULL)

as.big.matrix(x, type = NULL, separated = FALSE, backingfile = NULL, backingpath = NULL, descriptorfile = NULL, shared=TRUE)

使用注意:

big.matrix采用两种方式储存数据:一种是big.matrix默认的方式,如果内存空间比较大,可以尝试使用;另外一种是filebacked.big.matrix,这种储存方法可能会备份文件(file-backings),而且需要descriptor file;

“init”指矩阵的初始化数值,如果设定,会事先将设定的数值填充到矩阵中;如果不设置,将处理为NA

"type"是指在big.matrix中atomic element的储存格式,默认是“double”(8 byte),可以改为“integer”(4 byte), "short"(2 byte) or "char"(1 byte)。注意:这个包不支持字符串的储存,type = "char"是指ASCII码字母。

在big.matrix非常大的时候,避免使用rownames和colnames(并且bigmemory禁止用名称访问元素),因为这种做法非常占用内存。如果一定要改变,使用options(bigmemory.allow.dimnames=TRUE),之后colnames, rownames设置。

直接在命令提示符后输入x(x是一个big matrix),将返回x的描述,不会出现所有x中所有内容。因此,注意x[ , ](打印出矩阵全部内容);

如果big.matrix有很多列,那么应该将其转置后储存;(不推荐)或者将参数“separated”设置为TRUE,这样就将每一列分开储存。否则,将用R的传统方式(column major的方式)储存数据。

如果建立一个filebacked.big.matrix,那么需要指定backingfile的名称和路径+descriptorfile。可能多个big.matrix对象对应唯一一个descriptorfile,即如果descriptorfile改变,所以对应的big.matrix随之改变;同样,decriptorfile随着big.matrix的改变而改变;如果想维持一种改变,需要重新建立一个filebacked.big.matrix。attach.big.matrix(descriptorfile or describe(big.matrix))函数用于将一个descriptorfile赋值给一个big.matrix。这个函数很好用,因为每次在创建一个filebacked.big.matrix后,保存R并退出后,先前创建的矩阵会消失,需要再attach.big.matrix以下

2. 对big.matrix的列的特定元素进行条件筛选

对内存没有限制;而且比传统的which更加灵活(赞!)

mwhich(x, cols, vals, comps, op = 'AND')

x既可以是big.matrix,也可以是传统的R对象;

cols:行数

vals:cutoff,可以设定两个比如c(1, 2)

comps:'eq'(==), 'neq'(!=), 'le'(<), 'lt'(<=), 'ge'(>) and 'gt'(>=)

op:“AND”或者是“OR”

可以直接比较NA,Inf和-Inf

3.bigmemory中其他函数

nrow, ncol, dim, dimnames, tail, head, typeof继承base包

big.matrix, is.big.matrix, as.big.matrix, attach.big.matrix, describe, read.big.matrix, write.big.matrix, sub.big.matrix, is.sub.big.matrix为特有的big.matrix文件操作;filebacked.big.matrix, is.filebacked(判断big.matrix是否硬盘备份) , flush(将filebacked的文件刷新到硬盘备份上)是filebacked的big.matrix的操作。

mwhich增强base包中的which, morder增强order,mpermute(对matrix中的一列按照特定序列操作,但是会改变原来对象,这是为了避免内存溢出)

big.matrix对象的copy使用deepcopy(x, cols = NULL, rows = NULL, y = NULL, type = NULL, separated = NULL, backingfile = NULL, backingpath = NULL, descriptorfile = NULL, shared=TRUE)

biganalytics package的使用

biganalytics主要是一些base基本函数的扩展,主要有max, min, prod, sum, range, colmin, colmax, colsum, colprod, colmean, colsd, colvar, summary, apply(只能用于行或者列,不能用行列同时用)等

比较有特色的是bigkmeans的聚类

剩下的biglm.big.matrix和bigglm.big.matrix可以参考Lumley's biglm package。

bigtabulate package的使用

并行计算限制的突破:

使用doMC家族:doMC, doSNOW, doMPI, doRedis, doSMP和foreach packages.

foreach package的使用

foreach(..., .combine, .init, .final=NULL, .inorder=TRUE, .multicombine=FALSE, .maxcombine=if (.multicombine) 100 else 2, .errorhandling=c('stop', 'remove', 'pass'), .packages=NULL, .export=NULL, .noexport=NULL, .verbose=FALSE)

foreach的特点是可以进行并行运算,如在NetWorkSpace和snow?

%do%严格按照顺序执行任务(所以,也就非并行计算),%dopar%并行执行任务

...:指定循环的次数;

.combine:运算之后结果的显示方式,default是list,“c”返回vector, cbind和rbind返回矩阵,"+"和"*"可以返回rbind之后的“+”或者“*”

.init:.combine函数的第一个变量

.final:返回最后结果

.inorder:TRUE则返回和原始输入相同顺序的结果(对结果的顺序要求严格的时候),FALSE返回没有顺序的结果(可以提高运算效率)。这个参数适合于设定对结果顺序没有需求的情况。

.muticombine:设定.combine函数的传递参数,default是FALSE表示其参数是2,TRUE可以设定多个参数

.maxcombine:设定.combine的最大参数

.errorhandling:如果循环中出现错误,对错误的处理方法

.packages:指定在%dopar%运算过程中依赖的package(%do%会忽略这个选项)。

getDoParWorkers( ) :查看注册了多少个核,配合doMC package中的registerDoMC( )使用

getDoParRegistered( ) :查看doPar是否注册;如果没有注册返回FALSE

getDoParName( ) :查看已经注册的doPar的名字

getDoParVersion( ):查看已经注册的doPar的version

===================================================

# foreach的循环次数可以指定多个变量,但是只用其中最少?的

>foreach(a = 1:10, b = rep(10, 3)) %do% (a*b)

[[1]]

[1] 10

[[2]]

[1] 20

[[3]]

[1] 30

# foreach中.combine的“+”或者“*”是cbind之后的操作;这也就是说"expression"返回一个向量,会对向量+或者*

>foreach(i = 1:4, .combine = "+") %do% 2

[1] 8

>foreach(i = 1:4, .combine = "rbind") %do% rep(2, 5)

[,1] [,2] [,3] [,4] [,5]

result.122222

result.222222

result.322222

result.422222

>foreach(i = 1:4, .combine = "+") %do% rep(2, 5)

[1] 8 8 8 8 8

>foreach(i = 1:4, .combine = "*") %do% rep(2, 5)

[1] 16 16 16 16 16

=============================================

iterators package的使用

iterators是为了给foreach提供循环变量,每次定义一个iterator,它都内定了“循环次数”和“每次循环返回的值”,因此非常适合结合foreach的使用。

iter(obj, ...):可以接受iter, vector, matrix, data.frame, function。

nextElem(obj, ...):接受iter对象,显示对象数值。

以matrix为例,

iter(obj, by=c('column', 'cell', 'row'), chunksize=1L, checkFunc=function(...) TRUE, recycle=FALSE, ...)

by:按照什么顺序循环;matrix和data.frame都默认是“row”,“cell”是按列依次输出(所以对于“cell”,chunksize只能指定为默认值,即1)

chunksize:每次执行函数nextElem后,按照by的设定返回结果的长度。如果返回结构不够,将取剩余的全部。

checkFunc=function(...) TRUE:执行函数checkFun,如果返回TRUE,则返回;否则,跳过。

recycle:设定在nextElem循环到底(“错误: StopIteration”)是否要循环处理,即从头再来一遍。

以function为例

iter(function()rnorm(1)),使用nextElem可以无限重复;但是iter(rnorm(1)),只能来一下。

更有意思的是对象如果是iter,即test1 <- iter(obj)test2 <- iter(test1),那么这两个对象是连在一起的,同时变化。

==============================================

>a

[,1] [,2] [,3] [,4] [,5]

[1,]159 13 17

[2,]26 10 14 18

[3,]37 11 15 19

[4,]48 12 16 20

>i2 <- iter(a, by = "row", chunksize=3)

>nextElem(i2)

[,1] [,2] [,3] [,4] [,5]

[1,]159 13 17

[2,]26 10 14 18

[3,]37 11 15 19

>nextElem(i2) #第二次iterate之后,只剩下1行,全部返回

[,1] [,2] [,3] [,4] [,5]

[1,]48 12 16 20

>i2 <- iter(a, by = "column", checkFunc=function(x) sum(x) >50)

>nextElem(i2)

[,1]

[1,] 13

[2,] 14

[3,] 15

[4,] 16

>nextElem(i2)

[,1]

[1,] 17

[2,] 18

[3,] 19

[4,] 20

>nextElem(i2)

错误: StopIteration

>colSums(a)

[1] 10 26 42 58 74

>testFun <- function(x){return(x+2)}

>i2 <- iter(function()testFun(1))

>nextElem(i2)

[1] 3

>nextElem(i2)

[1] 3

>nextElem(i2)

[1] 3

>i2 <- iter(testFun(1))

>nextElem(i2)

[1] 3

>nextElem(i2)

错误: StopIteration

>i2 <- iter(testFun(1))

>i3 <- iter(i2)

>nextElem(i3)

[1] 3

>nextElem(i2)

错误: StopIteration

============================================

iterators package中包括

irnorm(..., count);irunif(..., count);irbinom(..., count);irnbinom(..., count);irpois(..., count)中内部生成iterator的工具,分别表示从normal,uniform,binomial,negativity binomial和Poisson分布中随机选取N个元素,进行count次。其中,negative binomial分布:其概率积累函数(probability mass function)为掷骰子,每次骰子为3点的概率为p,在第r+k次恰好出现r次的概率。

icount(count)可以生成1:conunt的iterator;如果count不指定,将从无休止生成1:Inf

icountn(vn)比较好玩,vn是指一个数值向量(如果是小数,则向后一个数取整,比如2.3 -->3)。循环次数为prod(vn),每次返回的向量中每个元素都从1开始,不超过设定 vn,变化速率从左向右依次递增。

idiv(n, ..., chunks, chunkSize)返回截取从1:n的片段长度,“chunks”和“chunkSize”不能同时指定,“chunks”为分多少片段(长度从大到小),“chunkSize”为分段的最大长度(长度由大到小)

iapply(X, MARGIN):与apply很像,MARGIN中1是row,2是column

isplit(x, f, drop=FALSE, ...):按照指定的f划分矩阵

=============================================

>i2 <- icountn(c(3.4, 1.2))

>nextElem(i2)

[1] 1 1

>nextElem(i2)

[1] 2 1

>nextElem(i2)

[1] 3 1

>nextElem(i2)

[1] 4 1

>nextElem(i2)

[1] 1 2

>nextElem(i2)

[1] 2 2

>nextElem(i2)

[1] 3 2

>nextElem(i2)

[1] 4 2

>nextElem(i2)

错误: StopIteration

SAS与R的对决:谁好使?

翻译 | JosephYX

来自SAS资源资讯列表

摘要

尽管在工业界还是被 SAS 所统治,但是 R 在学术界却得到广泛的应用,因为其免费、开源的属性使得用户们可以编写和分享他们自己的应用。然而,许多正在获得数据分析相关学位的学生们由于缺乏 SAS 经验的情况而在找工作的路上困难重重,与此同时,他们要面对从学校熟悉的 R向 SAS 转型的痛苦。理想情况是,你需要知道所有可能的编程语言,工作的时候使用与工作情况最匹配的那个,当然这个基本上是痴人说梦。我们的目的就是展示这两种差异巨大的语言各自优点,并且共同发挥他们的优势,我们同时还要指出那些不使用 SAS 好多年的、现在正在使用 R语言的人们的一些误解和偏见,因为他们已经很少关注 SAS 的发展和进步了。

前言

我们选取 SAS 和 R 的原因是因为他们是目前在统计领域中最有统治地位的两个编程语言。现在我们注意到一个不好的现象,就是在学术界重度使用R的用户认为R在被SAS霸占的工业界有具有相当优势的,然而熟练掌握这两个软件对于想在数据分析领域取得小有成就的年轻人来说很关键。教授误解加上对某个软件的偏好往往对学生有着不利的引导,因此需要在这里指出:教授们,别偷懒了,对某种语言的主观偏好将会影响学生的钱途。

SAS经常有一些更新(有点慢,sxlion注),非SAS程序员由于没有技术跟进往往并不知情。SAS绘图模块就是一个快速发展并成长的例子,然而许多人并不注意到这些升级以至于他们仍然固执的使用 R画图。SAS另一个不广为人知的例子是SAS可以轻松自定义函数,这正是 R 的强项。这个SAS过程步(PROC)有全面的语法检查、翔实的文档和技术支持;然而一个新的使用者很可能不知道这些工具可用,或者根本不知道它们的存在。另外,SAS 还拥有卓越的培训课程,网络及用户组分享资源,不同相关主题的大量书籍。知道并合理的使用这些技术以及工具 有助于减少使用 SAS的畏惧之心。

相关问题讨论

本文就在我们学院碰到的一些共同误解的地方,在此对比列出两种语言的优缺点。当然还有更多的争论在进行中,但是本文汇中我们将选取最为普遍的来进行讨论。我们希望能够消除误解,并且尽可能地为那些不能及时跟进R或SAS的分析人士提供新的信息。

统计方法的新进展

SAS

优点:SAS 的软件及算法都是经过检验的,SAS 有技术支持去快速解决用户的需求。 如果需要的话,SAS 会尝试在已存在的步骤中嵌入新的方法,例如增加一个选项或者新增一个语句(statement),因此用户不需要学习另外一个过程步。SAS也 会发布最新通讯来详细说明软件的更新。

缺点:更新升级较慢。

R

优点:用户可以快速实施新方法,或者寻找已经存在的软件包。很容易学习和理解新方法,因为学生们可以看到代码中的函数。

缺点:R 文档的更新都是通过用户进行的,所以新的方法并没有被很好调试和检验。开发者们散布于各地,而并没有在一起来进行团队合作的开发。

在这个问题上,SAS 和 R 的优缺点是互补的。对于 R,有人认为它的代码是开放的,可以看到 R 是如何工作的,这对于拥有相关背景的人是比较容易理解的。然而对于 SAS,它的过程步是预装的,文件中对不同的语句(Statement)及选项( Option) 存储了大量的数学公式。如果用户真的想看到底层程序,这个也是很容易实现的。对两种语言的使用着者来说,不管是学生还是其它用户,只是运行代码的话对于两种语言是没有什么不同的。你运行SAS,不需要知道它在干什么,类似的是,你运行R时,也不需要知道它在后台调用的函数。你所做的就是按章操作而已。

画图

SAS

优点:SAS画图模块正变得越来越灵活、精良和易于使用。在一些分析过程步(PROCs) 中,ODS Graphics可以自动的生成一些图形,而不需要额外的代码。这使得用户多了一个选择,即可以使用默认的图表生成图表,也可以自己来创造个性化的图表。

缺点:图形背后的模板语言(TL)是庞大及不易使用的,特别是对于新手来说。新的高级功能如交互式绘图功能( interactive graphs),对于新手来说也是难以掌握的。

R

优点:可以简单的生成漂亮的图表,还可以使用循环语句来生成动画。

缺点:在 R 中图表功能与统计分析无关,绘图和分析是相互独立的。用户必须自己来决定什么样的图形是合适的,使用效果的好坏取决于用户们的统计背景和喜好。尽管改变图形去达到特别的维度或角度并不是一个简单事儿。

SAS9.2 之前版本的图表功能不足是 R 更吸引人的一个主要原因之一。R的一个最好的特性之一就是其图表功能的高质量性和易用性。但是,当前 SAS/GRAPH 搭配 ODS Graphics 及 SG 过程在软件中增加了制图的能力。联合使用 ODS graphics 和 PROCS 可以使用户简单地生成与分析相关的展示图表。 特定的绘图过程步如PROCSGPLOT,SGPANEL和SGSCATTER等越来越多,当然需要的一定代码来实现。另外,SAS 中还有一些其他不错的绘图选择,如 SGDESOGNER 和 SAS Enterprise Guide。

函数及可重复使用的代码

SAS

优点:SAS有可在 DATA 和 PROC 步使用的大量函数和自定义函数。另外强大无所不能的、也可以被DATA步和PROC步使用的宏语言。宏变量可定义为局部或者全局类型。

缺点:编写自定义函数和详细的宏代码需要深厚的编程知识来确保正确性。

R

优点:在 R 中编写函数很简单,用户也可以通过上传自己的函数到 R-CRAN 上与其 它用户分享。

缺点:编写自定义函数需要深厚的编程知识来确保正确性。变量是严格的局部变量。在这一点上两种软件拥有类似的利弊。SAS 的早期用户运行自己的定制函数主要取决于宏程序的编写,这也是 R 用户认为其低效及笨重的原因。然而,SAS 9 版本的 PROC FCMP允许用户编写个性化的函数,SAS 9.2 版本又允许用户在 DATA 及 PROC 步中调用这些函数。 这对于简单的统计函数是很有用的,对于更加复杂的统计函数也可以通过 IML 语言来实现。

SAS 及 R 两种语言都面临着怎样有效地、正确的使用函数,这就需要用户在函数编写的过 程中拥有深厚的编程背景。从好的角度来说,一个程序员需要知道他们编写的是什么;危险的是,其它人可以下载一个 SAS 宏或者 P 程序包来使用,尽管他们不知道其内在工作原理, 甚至不知道其正确性。所以,有了对宏及函数适当的了解,再来分享它们并应用于具体的需求是很方便的。

免费软件

SAS

优点:SAS 有OnDemand 版本的软件,免费提供给学位颁发机构。

缺点:真正的 SAS 和 JMP 并不是免费的。OnDemand 版本对使用何种操作系统有一 些限制,而且据反映运行速度很慢。

R

优点:R 是完全免费。

缺点:开源软件对于大公司来讲都会有安全方面的担忧。

SAS公 司 为 教 育 机 构 提 供 的 免费 替 代 品 可 以 保 证 教 授 们 在 课 堂 上 的 使 用 。 对 于 OnDemand 的安装过程和速度需要注意。总之,SAS 和 JMP 不是免费的,公司需要使用许 可来使用该软件。R 可以免费的安装,但许多参与论战的博主们认为如果那些正在使用 SAS 的公司去使用 R,将会花费远远超过 SAS 授权费用的资源和财力,例如重写代码、构建新的团队、招聘新的专业人员等等。而且对于那些分析结果需要经得起严格检验要求的公司, 可能 SAS 更加适合。还没有现存分析框架的小公司可以来探讨是选择历史悠久、资源丰富的付费软件(SAS),还是要选择虽然免费、但是还需要其它先期投资(如员工的知识背景, 编写及调试代码)的软件(R)。最终,从时间和金钱的角度来衡量,SAS 和 R 的花费可能 是基本接近的。

用户支持

SAS

优点:SAS 有丰富的网上参考资料,专业的技术支持,专业的培训课程,许多优秀 的出版书籍,一个紧密的用户组及网络社区。SAS 的问题可以直接反映给技术支 持部门,他们会与用户一起来解决。

缺点:真的没想到。

R

优点:R 有很好的示例手册,网上参考材料,R 邮件列表和 R 聚会。

缺点:用户们取决于其它用户对于软件的看法及建议。因为 R 的开发者散布于全球 各地,所以全球的用户是缺乏联系的。程序包(Package)并不是由 R 软件的开发 核心团队来编写的,所以导致了程序的不完善甚至有时候会对结果的正确性有所怀 疑。另外,很难去直接寻找一个针对具体问题的人员或者团队。

SAS 所提供的卓越的支持是他们以客户为中心设计产品的亮点。SAS 支持的优点对初 学者是理想的帮助,其大量的细节也使资深用户受益匪浅。R 较为混乱的参考资料和匮乏的技术支持在需要寻找帮助时困难重重。这违背了 R 的开发设计者的初衷。

数据处理

SAS

优点:SAS 可以处理任意类型和格式的数据。DATA 步的设计纯粹就是为了数据的管 理,所以 SAS 擅长处理数据。利用丰富的选项,SAS 可以将大数据处理的很好,拼表以及 PROC SQL 也可以减少运行时间。

缺点:在 DATA 步骤中 SAS 中的DATA步有非明示的循环算法,因此使用者的编程思维需要改变以符合SAS的运行逻辑。

R

优点:R 在最初就被认为是更加适合大数据的。它对于矩阵的操作和排序的设计是非常高效的。R 也可以很好的进行各种基于分析的数据模拟。

缺点:R 的设计更加关注统计计算以及画图功能,所以数据的管理是比较耗时的,而且不如在 SAS 中那么明晰。其中一个主要的原因就是:对于各种不同类型的数据,在 R 中进行很好的数据处理是比较难以掌握的。

数据处理的重要性经常在统计编程中被忽视了,但是它确实是非常关键的,因为实际的数据非常糟糕,不能直接应用于分析。纯粹地使用 R 的学生们对于得到的数据往往有不切实际的期望,而学习 SAS 是一个有效的方法去解决怎样整理原始的数据。SAS可以对大而繁杂的数据集进行管理和分析,而 R更着重于进行分析。

当处理复杂数据时,R 的面向对象的数据结构会遇到很多问题,并且R还缺乏一个内在的循环过程。在SAS中,应用标准化工具经常会进行如下操作:合并含有大量缺失数据的复杂数据集,再生成及修改其中的变量。而在R中,进行复杂的数据处理操作是没有标准化的,而且经常会导致更加复杂的过程。

SAS与R软件运行时间的快慢对比取决于任务。如SAS可以通过设置 MEMLIB,从而像R一样使用内存(而非硬盘)来提升运行速度。但在R中,没有这样的硬件驱动,只能使用内存来执行。

安装

SAS

优点:SAS所有的分析功能及授权都被整体打包在一起安装。升级授权证书是非常容易。

缺点:首次安装或升级到一个新的版本是很耗时且有点麻烦的。但是这比在课堂上向学生们讲述如何使用这个软件简单1000倍。现在越来越多的学生们在课堂上使用Macs系统的笔记本,但是SAS没有Mac版,意味着这部分学生无法使用 SAS。

R

优点:R 和其最常用的用户界面 RStudio 在 Window、Mac 和 Unix 环境下都很容易安 装和打开,且安装速度都很快。

缺点:运行必须知道满足需求的程序包,然后搜索、安装、了解具体功能。截止原文发表时,共有 4379 个可用程序包,这一数量还在每天增加。在提供了更多选择的 同时,也增加了搜寻的时间和难度。

SAS 的获得对用户来说比较困难,首次安装也是比较麻烦的。但是一旦安装完成了,有关软件本身的问题就很少了,对于特别的分析,也不需要额外的程序包或者步骤了。R 中 相反,安装非常简单,但对于额外分析,需要另外安装程序包,浪费了安装软件所节省的时间。

报表

SAS

优点:SAS 通过很多有用的过程步来生成详细漂亮的报表。

缺点:能提供更详尽报表的过程如 TABULATE、REPORT 等,在能正确而有效的使用前,将为有一个艰难的学习曲线等待你跨越。

R

优点:报表方面,R拥有诸多利器。Sweave包可以创造包含文字、表格和图形的 PDF 文件,其中图形可以LaTeX 和 R 命令来装扮。另一个新的程序包 Knitr 可以快速生成格式限制较少的网页内容。

缺点:R 没有一个模式化的方式来生成报表,所以需要在编程上花一些功夫。报表的生成对于 R 来说是一个比较新的方向,所以它不如 SAS 来的简单和快速。在 R 中,Sweave 和 Knitr 是报表这方面的领先的程序包,但是学习起来也比较困难。

重度报表使用用户应该了解这些以上不同,尽管学习 SAS 的报表功能需要花费一些时间,但是一旦掌握了就很有价值并有很高的灵活性。而从最基础学习 R 的报表功能也许不需要像 SAS 那样花那么多时间。

结论

我们可以看到解决 R 与 SAS 的辩论是三合一的。第一,就像在任何一个统计编程社区 一样,我们知道这个PK是没有一个最终赢家。两种软件各有优缺点。他们有共存的必要,而学术上的教学中,他们也有共存的必要。如果学生们能够明确他们的需求并合理的应 用,那样会获得更好的效果。如果只给学生教授一种软件是有局限性的,这样会使他们难以发挥学习另外一种软件的潜力。第二,用户们需要保持他们的工具箱与时俱进。SAS 和 R 都有一些很不错的 学习网站去介绍最新 的技术上的进步。 SAS 技 术支 持 网 站 http://support.sas.com 有许多最新的动态,如 Focus Areas、E-newsletters、RSS 种子和博客。R 博客网站 http://www.r-bloggers.com 包含了许多用户贡献的新闻和练习。第三,最理想的是学习两种软件并将其融合于分析中。这里有许多方法可以尝试,例如用 SAS 的 IML 和 SAS 的 IML/Studio(IML 是 SAS 的一个加载项)功能,或者通过使用 SAS X Statement 执行外部命 令,使 R 代码在 SAS 中转化成 SAS 命令来运行。对于 R 的用户们,通过转化 R 到 SAS 的 用户界面,可以同时使用 2 种软件。通过使用两种软件可以使处理及分析数据变得事半功倍, 而且使所有的用户都满意。