R语言--不均衡问题处理

Python013

R语言--不均衡问题处理,第1张

样本不均衡问题是指在机器学习分类任务中,不同类型的样本占比差距悬殊。

比如训练数据有100个样本,其中只有5个正样本,其余均为负样本,这样正样本:负样本=5%:95%,训练数据中负样本过多,会导致模型无法充分学习到正样本的信息,这时候模型的正确率往往较高,但特异性却很低,即模型识别正样本的能力很差。这样的模型是无法投入实际项目中的,我们需要解决不均衡问题带来的影响。

解决样本不均衡,采用的方法是重采样。根据采样的方法,分为欠采样、过采样和组合采样。

在R语言中, ROSE 包用于处理样本不均衡问题。

安装包

加载示范数据,查看列联表。可以看到训练数据 hacide.train 出现了样本不均衡,正样本1只有20个,负样本0有980个。

欠采样会缩小训练数据。训练数据虽然正负样本均衡了,但由于原始的正样本很少,导致处理后总样本数减少很多。这个方法适用于训练数据很大,且正样本也较大的情况,可以用欠采样来减少训练数据规模,提高训练速度。

过采样会增大训练数据。该方法适用于训练数据中正样本数量较少的情况。

组合采样会同时增加正样本和减少负样本。参数 N 表示处理后样本总数,一般设置为训练数据样本数。

不均衡样本对模型的训练结果会产生较大偏差,以实际分类问题为例,对比一下处理与不处理均衡样本的结果。

从预测的结果来看,均衡处理与不均衡处理的模型准确率都很高,都超过了98%,貌似模型都很好。但均衡处理后模型的特异性达到了73.68%,未采用均衡处理的模型只有36.84%,显然 均衡处理能提高模型的特异性

处理样本不均衡问题是做分类问题不可或缺的的一步,针对训练数据的情况,可以采用不同的均衡处理方法。均衡处理的目的是尽可能多的且高效的利用训练数据里的信息,不至于后续训练出的模型学习的不够充分,出现较大偏差。均衡处理对于既要求准确率高,又要求特异性高的模型来说尤为重要。

如下:

c(H+)=1.33*10^-3 mol/L,pH=2.88。

Ka=c(H+)*c(CH3COO-)/c(CH3COOH)。

c(CH3COOH)=0.1mol/L。

c(H+)=√【Ka*c(CH3COOH)】=√(1.76*10^-5*0.1)=1.33*10^-3 mol/L。

pH=-lgc(H+)=2.88。

介绍

使用鲍林规则可以半定量地判断含氧酸的pKa,其理论是:多元含氧酸逐级电离常数之比约为10-5,即pKa差值为5;含氧酸的pKa与非羟基氧数量(N)有关,由此可判断,无非羟基氧的酸为弱酸,有一个的为中强酸,两个或三个的为强酸。

含氧酸的中心原子R对其酸性有着重要影响,R的半径越小,电负性越大,氧化数越高,则R吸引电子的能力越强,降低了-OH上的电子云密度,使其容易电离。这个规则称为R-O-H规则 。