r语言 train函数有哪些方法

2023-03-10 21:15:02Python047

r语言 train函数有哪些方法,第1张

R语言实际上是函数的集合，用户可以使用base，stats等包中的基本函数，也可以自己编写函数完成一定的功能。但是初学者往往认为编写R函数十分困难，或者难以理解。这里对如何编写R函数进行简要的介绍。函数是对一些程序语句的封装。换句话说，编写函数，可以减少人们对重复代码书写，从而让R脚本程序更为简洁，高效。同时也增加了可读性。一个函数往往完成一项特定的功能。例如，求标准差sd,求平均值，求生物多样性指数等。R数据分析，就是依靠调用各种函数来完成的。但是编写函数也不是轻而易举就能完成的，需要首先经过大量的编程训练。特别是对R中数据的类型，逻辑判别、下标、循环等内容有一定了解之后，才好开始编写函数。对于初学者来说，最好的方法就是研究现有的R函数。因为R程序包都是开源的，所有代码可见。研究现有的R函数能够使编程水平迅速提高。R函数无需首先声明变量的类型，大部分情况下不需要进行初始化。一个完整的R函数，需要包括函数名称，函数声明，函数参数以及函数体几部分。1. 函数名称，即要编写的函数名称，这一名称就作为将来调用R函数的依据。2. 函数声明，包括 <- function, 即声明该对象的类型为函数。3. 函数参数，这里是输入的数据，函数参数是一个虚拟出来的一个对象。函数参数所等于的数据，就是在函数体内部将要处理的值，或者对应的数据类型。函数体内部的程序语句进行数据处理，就是对参数的值进行处理，这种处理只在调用函数的时候才会发生。函数的参数可以有多种类型。R help的界面对每个函数，及其参数的意义及所需的数据类型都进行了说明。4. 函数体常常包括三部分.（1）. 异常处理输入的数据不能满足函数计算的要求，或者类型不符，这时候一定要设计相应的机制告诉用户，输入的数据在什么地方有错误。错误又分为两种。第一种，如果输入的数据错误不是很严重，可以经过转换，变为符合处理要求的数据时，此时只需要给用户一个提醒，告知数据类型不符，但是函数本身已经进行了相应的转换。第二种，数据完全不符合要求，这种情况下，就要终止函数的运行，而告知因为什么，函数不能运行。这样，用户在使用函数的情况先才不至于茫然。（2）. 运算过程包括具体的运算步骤。运算过程和该函数要完成的功能有关。R运算过程中，应该尽量减少循环的使用，特别是嵌套循环。R提供了 apply，replicate等一系列函数，来代替循环，应该尽量应用这些函数，提高效率。如果在R中实在太慢，那么核心部分只能依靠C或者Fortran 等语言编写，然后再用R调用这些编译好的模块，达到更高的效率。运算过程中，需要大量用到if等条件作为判别的标准。if和while都是需要数据TRUE/FALSE这样的逻辑类型变量，这就意味着，if内部，往往是对条件的判别，例如 is.na, is.matrix, is.numeric等等，或者对大小的比较，如，if(x >0)， if(x == 1)， if(length(x)== 3)等等。if后面，如果是1行，则花括号可以省略，否则就必须要将所有的语句都放在花括号中。这和循环是一致的。例子：## if与条件判断fun.test <- function(a, b, method = "add"){if(method == "add") { ## 如果if或者for/while；res <- a + b ## 等后面的语句只有一行，则无需使用花括号。}if(method == "subtract"){res <- a - b}return(res) ## 返回值}### 检验结果fun.test(a = 10, b = 8, method = "add")fun.test(a = 10, b = 8, method = "substract")

样本不均衡问题是指在机器学习分类任务中，不同类型的样本占比差距悬殊。

比如训练数据有100个样本，其中只有5个正样本，其余均为负样本，这样正样本：负样本=5%：95%，训练数据中负样本过多，会导致模型无法充分学习到正样本的信息，这时候模型的正确率往往较高，但特异性却很低，即模型识别正样本的能力很差。这样的模型是无法投入实际项目中的，我们需要解决不均衡问题带来的影响。

解决样本不均衡，采用的方法是重采样。根据采样的方法，分为欠采样、过采样和组合采样。

在R语言中， ROSE 包用于处理样本不均衡问题。

安装包

加载示范数据，查看列联表。可以看到训练数据 hacide.train 出现了样本不均衡，正样本1只有20个，负样本0有980个。

欠采样会缩小训练数据。训练数据虽然正负样本均衡了，但由于原始的正样本很少，导致处理后总样本数减少很多。这个方法适用于训练数据很大，且正样本也较大的情况，可以用欠采样来减少训练数据规模，提高训练速度。

过采样会增大训练数据。该方法适用于训练数据中正样本数量较少的情况。

组合采样会同时增加正样本和减少负样本。参数 N 表示处理后样本总数，一般设置为训练数据样本数。

不均衡样本对模型的训练结果会产生较大偏差，以实际分类问题为例，对比一下处理与不处理均衡样本的结果。

从预测的结果来看，均衡处理与不均衡处理的模型准确率都很高，都超过了98%，貌似模型都很好。但均衡处理后模型的特异性达到了73.68%，未采用均衡处理的模型只有36.84%，显然 均衡处理能提高模型的特异性 。

处理样本不均衡问题是做分类问题不可或缺的的一步，针对训练数据的情况，可以采用不同的均衡处理方法。均衡处理的目的是尽可能多的且高效的利用训练数据里的信息，不至于后续训练出的模型学习的不够充分，出现较大偏差。均衡处理对于既要求准确率高，又要求特异性高的模型来说尤为重要。