如何用R语言实现决策树C5.0模型

2023-02-23 12:05:02Python016

如何用R语言实现决策树C5.0模型,第1张

你可以利用R软件中{RWeka}包的J48()函数。

参考文献：

R. Quinlan (1993). C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers, San Mateo, CA.

基于R语言的分类算法之决策树

ID3 《= 最大信息熵增益，只能处理离散型数据

C4.5 《= 信息增益率，可处理连续性和离散型数据，相比ID3，减少了因变量过多导致的过拟合

C5.0 《= 信息增益率，运算性能比C4.5更强大

CART 《= 基尼指数最小原则，连续性和离散型数据均可

信息熵体现的是数据的杂乱程度，信息越杂乱，信息熵越大，反之越小。例如：拥有四种连续型变量的特征变量的信息熵一定比拥有三种的要大。

特征变量的N种可能性，每种可能性的概率相同，N越大，信息熵越大。

每种可能性的概率不同，越偏态，信息熵越小。

所有特征变量中，信息增益率的，就是根节点（root leaf），根节点一般是选择N越大的特征变量，因为N越大，信息熵越大。

信息增益率是在信息熵的基础上作惩罚计算，避免特征变量可能性多导致的高信息增益。

代码相关

library（C50）

C5.0(x,y, trials = 1, rules=FALSE,weights=NULL,control=C5.0Control(),costs=NULL)

x为特征变量，y为应变量

trials 为迭代次数（这个值根据不同数据而不同，并非越大越好，一般介于5-15之间，可以用遍历来寻找最高准确率的模型，对模型准确率的提升效果中等）

cost 为损失矩阵，R中应该传入一个矩阵（据说是对准确率矩阵约束猜测错误的项，但是并没特别明显的规律，可以使用遍历来寻找最好的cost，准确率提升效果小）

costs <- matrix(c(1,2,1,2),

ncol = 2, byrow = TRUE,

dimnames = list(c("yes","no"), c("yes","no")))

control 设置C5.0模型的其他参数，比如置信水平和节点最小样本等（水很深，参数很多，可以自行查阅R的帮助文档，我只设置了一个CF，准确率提升效果小）

control = C5.0Control(CF = 0.25)

library(C50)

#对iris随机划分训练集和测试集

set.seed(1234)

index <- sample(1:nrow(iris), size = 0.75*nrow(iris))

train <- iris[index,]

test <- iris[-index,]

#查看训练集和测试集分布是否合理

prop.table(table(train$Species))

prop.table(table(test$Species))

#不设置任何参数

fit1 <- C5.0(x = train[,1:4], y = train[,5])

pred1 <- predict(fit1, newdata = test[,-5])

freq1 <- table(pred1, test[,5])

accuracy <- sum(diag(freq1))/sum(freq1)

pred1setosa versicolor virginica

setosa 16 0 0

versicolor 0 13 1

virginica 0 0 8

准确率为0.9736842，只有一个错误。。。显然150个iris太少了，优化都省了。

信息变量越大增益准确率

# 上一篇：python执行shell，报错：未找到命令

# 下一篇：java程序计数器存的什么

给您推荐相同类型的内容：

想问下各位HR们，线上面试软件哪个好啊？
免费的视频软件就够了，比如：腾讯会议，微信，QQ，zoom，飞书会议，钉钉，都可以用。推荐你使用专为科技公司打造的程序员在线面试平台： showmebug.com 。实时编程环境，直观强大的多人在线代码交流环境， 0% 代码冲突率，延迟 5
R语言创建向量、数据框以及数据框的操作
创建向量时，先给向量命名，如letters，名字后加“&lt-符号，接着写函数c（元素）”，如“letters &lt- c(a,b,c,2,5)”。输入"&lt-"的方法：同时按“alt和-”或
说说R语言的转置
在群里看到了一个问题，他用R语言的转置函数 t() 对下面形式的数据进行了转置转置之后的数据结构如下他发现转置之后多了一行，也就是有了geneid这一行，和他预期的不符合。按照预期，geneid这一行应该是成为列名，而不是作为输出的第
安徒生的英文个人简介
Hans Christian Andersen [ˈhanˀs ˈkʰʁæʂd̥jan ˈɑnɐsn̩] or simply H.C. Andersen [hɔse ˈɑnɐsn̩], (April 2, 1805 – August 4,
r语言ggbio包使用方法
第一步：获取要绘图的整洁数据（涉及到数据整洁和操作的知识）第二步：整洁数据做映射操作，确定x,y,color,size,shape,alpha等第三步：选择合适的几何对象（根据画图的目的、变量的类型和个数）第四步：坐标系和刻度配置第五步：标
计算年龄的C语言程序
#include&ltstdio.h&gtvoidmain(){inty1,m1,d1,y0,m0,d0,y,m,dprintf("请输入当前日期n")printf("y1=")sc
Ruby Cabernet 宝石是什么酒？
宝石(Ruby Cabernet)原产美国，欧亚种。1948年美国加州大学以佳丽酿X赤霞珠杂交育成。我国于1980午后多次从美国、澳大利亚引入。目前河北沙城、昌黎，新疆鄯善，河南郑州和山东有少量栽培。嫩梢黄绿色带红色条纹。幼叶浅红色。一年
英文名ruby是什么意思
Ruby鲁比（女子名）英 [ˈrubi] 美 [ˈrubi]派生词： ruby adj.1、They got misty-eyed listening to records of Ruby Murray singing '
文艺又少见的英文短句
1.有哪些文艺而有韵味的英文句子Acting as if nothing borne in mind is the best revenge.It's all for myself to live better.若无其事，
tensorflow是什么语言
TensorFlow是编程语言Python，C++，CUDA。TensorFlow™是一个基于数据流编程（dataflow programming）的符号数学系统，被广泛应用于各类机器学习（machine learning）算法的编程实现
Python获取当前时间前、后一个月的函数
这需求折腾了我半天.. import time import datetime as datetime def late_time(time2): # 先获得时间数组格式的日期 #time2是外部传入的任
JAVA中什么叫派生类
利用继承机制，新的类可以从已有的类中派生。那些用于派生的类称为这些特别派生出的类的“基类”。基类说明：在Java中要定义的新的数据类型不仅拥有新定义的成员，而且还同时拥有旧的成员，我们称已存在的用来派生新类的类为Java基类，又称为父类。
c语言练习题
#include "stdafx.h"#include &ltstdio.h&gt添加此头文件void main(){ float scoreprintf("n Please enter
java 打印等腰三角形，
java 打印等腰三角形可以采用如下方式：public class Mul { public static void main(String args[]) { for (int i = 1 i &lt= 6
慕课网java课程用的编码格式是什么？看源代码的时候发现乱码了，谢谢！
运行java带有中文的代码就出现乱码，解决方式如下：设置整个java工程的编码格式为utf-8，如下图：设置html的编码格式为utf-8参考资料：java中文乱码解决之道（一）-----认识字符集http:blog.csdn.
R语言进行文本挖掘
介绍使用tidytext进行文本挖掘。整洁的数据应该是这样的对于整洁的文本数据，储存在每行中的数据通常是单个单词，但也可以是n-gram，句子或段落。使用unnest_tokens函数对数据进行处理简单介绍一下unn
慕课网java课程用的编码格式是什么？看源代码的时候发现乱码了，谢谢！
运行java带有中文的代码就出现乱码，解决方式如下：设置整个java工程的编码格式为utf-8，如下图：设置html的编码格式为utf-8参考资料：java中文乱码解决之道（一）-----认识字符集http:blog.csdn.
java程序计数器存的什么
java中的程序计数器，确切的来说是jvm中的程序计数器：程序计数器是一块较小的内存空间，它的作用可以看作是当前线程所执行的字节码的行号指示器，内存中的一块空间而指向下一条指令地址这个程序计数器，是指的cpu中的程序计数器，是硬件层面
R语言建模参数初始值
没有具体的建模数值，因为根据不同形态的建模，需要设置的数值都是不同的，最基础的是可选择的缩放参数。例如：w = torch.Tensor(3, 5)nn.init.xavier_uniform(w, gain=nn.init.calcu
Java中的线程同步与异步如何理解？
线程，有时被称为轻量级进程(Lightweight Process，LWP)，是程序执行流的最小单元。一个标准的线程由线程ID，当前指令指针(PC)，寄存器集合和堆栈组成。另外，线程是进程中的一个实体，是被系统独立调度和分派的基本单位，线
php调用python
py和php放在同一个目录下面some.py------------------------------------------#!usrbinenv python#-*- coding:utf-8 -*-import sysdef
C语言中的%%d是什么意思
表示把数据按十进制整型输出，类似的符号含义如下：%o表示把数据按八进制整型输出；%x表示把数据按十六进制整型输出；%u表示把数据参数按无符号整型输出。%f显示小数表示的普通浮点数。扩展资料：c语言特有特点C语言是一个有结构化程序
Python中的各种锁？
大致罗列一下：一、全局解释器锁（GIL）1、什么是全局解释器锁每个CPU在同一时间只能执行一个线程，那么其他的线程就必须等待该线程的全局解释器，使用权消失后才能使用全局解释器，即使多个线程直接不会相互影响在同一个进程下也只有一个线程使用cp
JAVA中转义字符't'的含义?
t :横向制表(HT) （跳到下一个TAB位置）。t是补全当前字符串长度到8的整数倍，最少1个最多8个空格，补多少要看你t前字符串长度。比如当前字符串长度10，那么t后长度是16，也就是补6个空格。如果当前字符串长度12，此时
JAVA中转义字符't'的含义?
t :横向制表(HT) （跳到下一个TAB位置）。t是补全当前字符串长度到8的整数倍，最少1个最多8个空格，补多少要看你t前字符串长度。比如当前字符串长度10，那么t后长度是16，也就是补6个空格。如果当前字符串长度12，此时
java 如何给pdf文件加水印
可以使用Spire.PDF for Java通过Java来添加水印。首先，您需要在 Java 程序中添加 Spire.Pdf.jar 文件作为依赖项。您可以从这个链接下载 JAR 文件；如果您使用 Maven，则可以通过在 pom.xml
R语言求解，x是向量，y是矩阵，求xt，这向量乘矩阵是怎么回事？还有向量加矩阵是什么？
矩阵作用在向量上,矩阵左乘向量,向量应该列着写,叫列向量![a b] [x]= [ax+by][c d] [y] [cx+dy]注：这里上下两个方括号,应该是个大方括号,没办法打出别的不清楚，R有两种做法。一种用matrix()把1:10
Go语言中new和 make的区别详解
1、new 的主要特性首先 new 是内建函数，定义也很简单：func new(Type) *Type内建函数 new 用来分配内存，第一个参数是一个类型，不是一个值，返回值是一个指向新分配类型零值的指针实现一个类似 new 的功能：fun
英雄联盟中“耀光”的英文名字
Abyssal Scepter 虚空之杖Aegis of the Legion 军团圣盾Amolifying Tome 增幅典籍Archangel's Staff 大天使之杖Athene's Unholy Grall 雅
python语言录制声音和保存wav文件的库文件是什么
是pyaudio。因为录音，是由计算机内部声卡实现的，所以我们需要利用pyaudio库调用声卡进行声音录制，而保存音频文件我们可以使用python自带的wave库来将音频保存为wav音频文件，所以python语言录制声音和保存wav文件的库

推荐阅读

热门文章

最新发布

标签列表

如何用R语言实现决策树C5.0模型

给您推荐相同类型的内容：