R 语言的优劣势是什么？

2023-02-20 08:43:01Python013

R 语言的优劣势是什么？,第1张

R编程语言在数字分析与机器学习领域已经成为一款重要的工具。随着机器逐步成为愈发核心的数据生成器，该语言的人气也必然会一路攀升。不过R语言当然也拥有着自己的优势与缺点，开发人员只有加以了解后才能充分发挥它的强大能力。

R语言随时间推移正呈现出愈发迅猛的发展态势，并成为能够将不同数据集、工具乃至软件包结合在一起的胶水型语言，R语言是创建可重复性及高质量分析的最佳途径。它拥有数据处理所必需的一切灵活性及强大要素

R语言拥有强大的软件包生态系统与图表优势，R语言的优势主要体现在其软件包生态系统上。庞大的软件包生态系统无疑是R语言最为突出的优势之一，其中内置有大量专门面向统计人员的实用功能，R语言具备可扩展能力且拥有丰富的功能选项，帮助开发人员构建自己的工具及方法，从而顺利实现数据分析，人们能够在无需申请权限的前提下对其进行扩展。，它最大的优势就是以自由软件的姿态出现。其源代码以及所有一切都可供，R语言在图形及图表方面的一切能够都是“无与伦比”的。

R的短板在于安全性与内存管理。说了这么多优势，R语言当然也存在着一定不足。内存管理、速度与效率可能是R语言面临的几大最为严峻的挑战，在这方面，人们仍然需要努力推动，而且也确实正在推动其进展与完善。R语言在设计思路上太太古老。这种语言的设计局限有时候会令大规模数据集处理工作遇到难题，此外，R语言无法被嵌入到网络浏览器当中，我们不能利用它开发Web类或者互联网类应用程序。再有，我们基本上没办法利用R语言当作后端服务器执行计算任务，因为它在网络层面缺乏安全性保障，长久以来，R语言当中始终缺少充足的交互元素。

R语言并不单纯面向高端程序员，我甚至并不认为R语言只适用于程序员。它非常适合那些面向数据并试图解决相关问题的用户，无论他们的实际编程能力如何

R语言实际上是函数的集合，用户可以使用base，stats等包中的基本函数，也可以自己编写函数完成一定的功能。但是初学者往往认为编写R函数十分困难，或者难以理解。这里对如何编写R函数进行简要的介绍。

函数是对一些程序语句的封装。换句话说，编写函数，可以减少人们对重复代码书写，从而让R脚本程序更为简洁，高效。同时也增加了可读性。一个函数往往完成一项特定的功能。例如，求标准差sd,求平均值，求生物多样性指数等。R数据分析，就是依靠调用各种函数来完成的。但是编写函数也不是轻而易举就能完成的，需要首先经过大量的编程训练。特别是对R中数据的类型，逻辑判别、下标、循环等内容有一定了解之后，才好开始编写函数。对于初学者来说，最好的方法就是研究现有的R函数。因为R程序包都是开源的，所有代码可见。研究现有的R函数能够使编程水平迅速提高。

R函数无需首先声明变量的类型，大部分情况下不需要进行初始化。一个完整的R函数，需要包括函数名称，函数声明，函数参数以及函数体几部分。

函数名称，即要编写的函数名称，这一名称就作为将来调用R函数的依据。

2. 函数声明，包括 <- function, 即声明该对象的类型为函数。

3. 函数参数，这里是输入的数据，函数参数是一个虚拟出来的一个对象。函数参数所等于的数据，就是在函数体内部将要处理的值，或者对应的数据类型。函数体内部的程序语句进行数据处理，就是对参数的值进行处理，这种处理只在调用函数的时候才会发生。函数的参数可以有多种类型。R help的界面对每个函数，及其参数的意义及所需的数据类型都进行了说明。

4. 函数体

常常包括三部分.

（1）. 异常处理

输入的数据不能满足函数计算的要求，或者类型不符，这时候一定要设计相应的机制告诉用户，输入的数据在什么地方有错误。错误又分为两种。

第一种，如果输入的数据错误不是很严重，可以经过转换，变为符合处理要求的数据时，此时只需要给用户一个提醒，告知数据类型不符，但是函数本身已经进行了相应的转换。

第二种，数据完全不符合要求，这种情况下，就要终止函数的运行，而告知因为什么，函数不能运行。这样，用户在使用函数的情况先才不至于茫然。

（2）. 运算过程

包括具体的运算步骤。运算过程和该函数要完成的功能有关。

R运算过程中，应该尽量减少循环的使用，特别是嵌套循环。R提供了 apply，replicate等一系列函数，来代替循环，应该尽量应用这些函数，提高效率。如果在R中实在太慢，那么核心部分只能依靠C或者Fortran 等语言编写，然后再用R调用这些编译好的模块，达到更高的效率。

运算过程中，需要大量用到if等条件作为判别的标准。if和while都是需要数据TRUE/FALSE这样的逻辑类型变量，这就意味着，if内部，往往是对条件的判别，例如 is.na, is.matrix, is.numeric等等，或者对大小的比较，如，if(x >0)， if(x == 1)， if(length(x)== 3)等等。if后面，如果是1行，则花括号可以省略，否则就必须要将所有的语句都放在花括号中。这和循环是一致的。

例子：

## if与条件判断

fun.test <- function(a, b, method = "add"){

if(method == "add") { ## 如果if或者for/while；

res <- a + b ## 等后面的语句只有一行，则无需使用花括号。

}

if(method == "subtract"){

res <- a - b

}

return(res) ## 返回值

}

### 检验结果

fun.test(a = 10, b = 8, method = "add")

fun.test(a = 10, b = 8, method = "substract")

Bayes判别，它是基于Bayes准则的判别方法，判别指标为定量资料，它的判别规则和最大似然判别、Bayes公式判别相似，都是根据概率大小进行判别，要求各类近似服从多元正态分布。

1. Bayes准则：寻求一种判别规则，使得属于第k类的样品在第k类中取得最大的后验概率。

基于以上准则，假定已知个体分为g类，各类出现的先验概率为P（Yk），且各类均近似服从多元正态分布，当各类的协方差阵相等时，可获得由m个指标建立的g个线性判别函数Y1，Y2，…，Yg，分别表示属于各类的判别函数值：

其中Cjk即为判别系数，通过合并协方差阵代入即可计算得各个指标的判别系数，而C0k中则加以考虑了先验概率P（Yk）：

2. 先验概率的确定：若未知各类的先验概率时，一般可用：

（1）等概率（先验无知）：P（Yk）= 1/g（all groups equal）。

（2）频率：P（Yk）= nk/N （当样本较大且无选择偏倚时用，compute from sample size）

3. 判别规则：

（1）计算样品属于各类的判别函数值，把对象判别为Y值最大的类。

（2）根据所得Y值，我们亦可以进一步计算属于k类的后验概率，再将对象判给后验概率最大的一类。

以上两种判别规则的结果是完全一致的。

函数介绍

实现Bayes判别可以调用程序包klaR中NaiveBayes()函数，其调用格式为：

NaiveBayes(x，grouping，prior，usekernel =FALSE，fL = 0， ...)

复制

x为训练样本的矩阵或数据框，grouping表示训练样本的分类情况，prior可为各个类别指定先验概率，默认情况下用各个类别的样本比例作为先验概率，usekernel指定密度估计的方法，默认情况下使用标准的密度估计，设为TRUE时，则使用核密度估计方法；fL指定是否进行拉普拉斯修正，默认情况下不对数据进行修正，当数据量较小时，可以设置该参数为1，即进行拉普拉斯修正。

例子：利用Iris数据集进行Bayes判别

>install.packages("klaR")

>X<-iris[1:100,1:4]

>G<-as.factor(gl(2,50))

>library(klaR)

>x<-NaiveBayes(X,G)

>predict(x)

$class

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36

1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1