Python数据分析（4）决策树模型

2023-02-25 21:03:01Python011

Python数据分析（4）决策树模型,第1张

时间：2021/06/30

系统环境：Windows 10

所用工具：Jupyter Notebook\Python 3.0

涉及的库：pandas\train_test_split\DecisionTreeClassifier\accuracy_score\roc_curve\matplotlib.pyplot\roc_auc_score\export_graphviz\graphviz\os\GridSearchCV

蛋肥想法： 通过测试集数据，检验预测准确度，测得准确度为95.47%。

蛋肥想法： 通过绘制ROC曲线，得出AUC值为0.966，表明预测效果不错。

蛋肥想法： 特征重要性最高的是“satisfaction_level”，而“salary”在该模型中的特征重要性为0，并不符合实际（钱可太重要了~），应该是因为数据处理时单纯将工资分为“高”“中”“低”3个档次，使得该特征变量在决策树模型中发挥的作用较小。

蛋肥想法： GridSearch网格搜索可以进行单参数和多参数调优，蛋肥这里以max_depth参数来练习调优，得出'max_depth': 7时，AUC更好为0.985。

要弄清楚这个问题，首先要弄懂决策树三大流行算法ID3、C4.5和CART的原理，以及sklearn框架下DecisionTreeClassifier的帮助文档。

3个算法的主要区别在于度量信息方法、选择节点特征还有分支数量的不同。

ID3，采用熵（entropy）来度量信息不确定度，选择“信息增益”最大的作为节点特征，它是多叉树，即一个节点可以有多个分支。

C4.5，同样采用熵（entropy）来度量信息不确定度，选择“信息增益比”最大的作为节点特征，同样是多叉树，即一个节点可以有多个分支。

CART，采用基尼指数（Gini index）来度量信息不纯度，选择基尼指数最小的作为节点特征，它是二叉树，即一个节点只分两支。

然后你认真阅读sklearn的DecisionTreeClassifier的帮助文档，可以发现，度量信息的方法默认是Gini，但可以改成entropy，请按需选择；构建的树是二叉树；可以通过设置max_deepth、max_leaf等来实现“剪枝”，这是根据CART的损失函数减少的理论进行的。

所以总结说，如果信息度量方法按照默认的设置，那么sklearn所用的决策树分类器就是CART，如果改成了entropy，那么只是使用了别的度量方法而已。其实两者差不多。

度量节点特征信息想法

# 上一篇：Ruby的语言用途

# 下一篇：keil编程软件介绍 C语言与单片机的联系越详细越好```

给您推荐相同类型的内容：

c语言错误error
#include &ltstdio.h&gt#include &ltstdlib.h&gt#define maxsize 100typedef char datatypetypedef struct
怎么分析C语言程序
#include&ltstdio.h&gtboolvisited[1005]={0}定义一个有1006个元素的bool数组变量intprime[1000]定义一个有1001个元素的int数组变量intisPrime(
c语言中abc是什么意思,导入什么包
字符数组的简写。在计算机c语言中，“abc”这样的字符串其实是字符数组的简写，通常需要导入stdbool.h包才能使用bool类型。而C语言是一门面向过程、抽象化的通用程序设计语言，广泛应用于底层开发。是合法的标识符，C语言规定标识符由数字
邪恶力量第三季里的RUBY应该被打过一枪为什么没死?
.....那一集是Bobby和Ruby他们在制造新的Colt的子弹...在尝试着有没有效果...而这么巧,Ruby又是只恶魔,所以就....射咯!(因为之前子弹已经用光了...最后一颗用来杀死Azazel了~~)可是很不幸的是...第一次尝
python求解系数是啥
1. person correlation coefficient(皮尔森相关性系数)皮尔逊相关系数通常用r或ρ表示，度量两变量X和Y之间相互关系(线性相关)(1)公式皮尔森相关性系数的值等于它们之间的协方差cov(X,Y)除以它们各自标准
掌握Python 操作 MySQL 数据库
本文Python 操作 MySQL 数据库需要是使用到 PyMySQL 驱动 Python 操作 MySQL 前提是要安装好 MySQL 数据库并能正常连接使用，安装步骤详见下文。注意：安装过程我们需要通过开
用python解压图片并打印代码
import zipfile# 传入压缩文件zfile.zip获取相关信息zip_file = zipfile.ZipFile('zfile.zip')# 获取压缩文件中的内容f_content = zip_fi
ubuntu如何升级python2.7
在ubuntu 的终端中用代码下载最新的Pythonsudo apt-get install python3系统会提示输入Linux 的密码，输入密码后下载刚才下载的Python程序被安装在usrlocallibpython3.5
Python给指定微信好友自动发送信息和图片
import os import win32gui #pywin32-221.win-amd64-py3.7.exe import win32con from ctypes import * import win32clip
php和C语言的区别
一、指代不同1、php：即“超文本预处理器”，是一种通用开源脚本语言。2、C语言：是一门面向过程、抽象化的通用程序设计语言，广泛应用于底层开发。二、特点不同1、php：是常用的网站编程语言。PHP独特的语法混合了C、Java、Per
常见c语言面试时技巧
常见c语言面试时技巧常见c语言面试时技巧，职场的道路从来不是一帆风顺的，职场上最忌尺寸把握不当，提升自己的能力才是头等大事，学会放下自己的职场压力也是很重要的，学会常见c语言面试时技巧，职场达人非你莫属！常见c语言面试
什么口红色号可以使气色看起来比较好？
我来盘点一下各大品牌的经典口红色号，都是网红哦，我也说了下简单测评，你可以根据自己需求来选择。最热门的番茄、枫叶、南瓜色口红大排名NO1.阿玛尼红管405很正的蕃茄红，显白！比红管401那个橘色要稳重的颜色！ NO2.兰蔻19
c语言this什么意思
this是一个指向对象自身的指针。举个例子：class Test{int i, jpublic:void set(int a, int b){this-&gti = a将调用该函数的对象中的成员i 赋值为athis-&g
python怎么安装 python安装教程
1、首先，登录python下载网址，可以在该页面上看到两类下载链接，分别是Python 3.x和Python 2.x版本。因为 Python在同时维护着3.x和2.x两个版本，这样既可让早期项目继续使用Python 2.x，也可让新的项目使
如何配置go语言开发环境
1.1 Go 安装Go的三种安装方式Go有多种安装方式，你可以选择自己喜欢的。这里我们介绍三种最常见的安装方式：Go源码安装：这是一种标准的软件安装方式。对于经常使用Unix类系统的用户，尤其对于开发者来说，从源码安装可以自己定制。Go标准
python错误：unexpected unident
这种情况，是缩进有错误的，找找哪里没对齐。python依靠indent来缩进。要么全部用空格缩进，要么全部tab键。用有些编辑器可以显示tab和空格的。另外，最好不要放到带中文的目录下，防止出问题。扩展资料：Python（计算机程序设计语
c语言和PHP，学哪个好？
计科专业从事嵌入式开发多年，从现在的市场行情以及就业的机会上讲php的就业空间还是大于C语言，但并不意味着C语言就已经被淘汰掉了，相反因为高级语言在应用领域使用的范围比较广泛，倒是显得很多底层的编程语言成了稀缺的物种，毕竟对于底层的维护也是
GO语言（三十）：访问关系型数据库（上）
本教程介绍了使用 Godatabasesql及其标准库中的包访问关系数据库的基础知识。您将使用的databasesql包包括用于连接数据库、执行事务、取消正在进行的操作等的类型和函数。在本教程中，您将创建一个数据
我的世界手机版js制作器怎么用
我的世界手机版修改器JS使用方法讲解：先打开修改器，屏幕上会出现一个扳手图标，然后开启游戏；点开上方扳手(启动器)图标，然后选择启动器设置；点开这一行英文然后点下面Manage MODPE scripts之后有四个选项。第一个是在文件夹导
gzip怎么压缩和怎么解压缩文件到其他目录
解决：gzip -c test.txt &gtroottest.gz，文件流重定向，解压也是，gunzip -c roottest.gz &gt.test.txt经验：更常用的命令tar同样可以解压*.gz，参数
C语言程序设计中如何输出一个64位的整数
1、ANSI C99标准中并没有64位整数类型。但是，许多实际的编译器，都实现了对64位整数类型的支持。因为没有这方面的标准，所以具体的语法描述方式略有不同，一般Windows平台，用__int64的关键字，而Linux平台则使用long
c语言库函数中有error函数吗？
c语言标准库函数里没有error函数。C语言对异常的处理确实不够好，大多的时候都需要人工除错。有几个类似的函数，分别处理各种情况下的异常：ferror函数：在调用各种输入输出函数（如putc.getc.fread.fwrite等）时，如果出
go语言实现一个简单的简单网关
网关=反向代理+负载均衡+各种策略，技术实现也有多种多样，有基于 nginx 使用 lua 的实现，比如 openresty、kong；也有基于 zuul 的通用网关；还有就是 golang 的网关，比如 tyk。这篇文章主要是讲
keil编程软件介绍 C语言与单片机的联系越详细越好```
1、单片机的c是继承了标准c的绝大部分的特性,基本语法相同,但其本身又在特定的硬件结构上又有所扩展如keywords:sbit,data,idata,pdata,xdata,code等等。。。2、应用单片机的c更要注重对系统资源的理解,因为
ruby这种脚本语言主要都应用在什么地方呢?? 它和Python有什么区别和 JavaScript又有什么区别???
Ruby可以进行Web开发Ruby 基本描述：Ruby是一种动态的面向对象的开源语言。Rails上的Ruby则是一种使用Ruby编写的开源网络程序框架，该框架与MVC（模型－查看－控制）结构十分类似。学习理由：由于简便性，有效性以
xcode支持哪些语言
xcode支持C、C++、Objective-C三种语言，并支持以上三种语言的混编较多应用因使用cocoa框架，常用Objective-C语言开发。而一些其它平台的软件和游戏移植至MAC OS和iOS ，其原开发语言或游戏引擎为C++，所以
Python3 & 基本数据类型（一）
Python提供的基本数据类型：数值(整型、浮点型、复数、布尔型等)、字符串、列表、元组、字典、集合等，将它们简单分类如下：通常被称为整型，数值为正或者负，不带小数点。 Python 3的整型可以当做Long类型使用，所以Pyt
怎么吧go程序打包成可运行的EXE文件
请自行查看我前面写得GO语言开发环境和GO语言IDE编辑器的经验文章我们先写一段GO代码很简单就是打印输出一个hello world！保存为print.go文件然后再CMD下一路cd到print.go目录下来在cmd下运行 go
求ruby卢春如的详细资料
歌手资料--卢春如性别：出生：12-27地区：NA类型：星座：山羊座介绍学历：加拿大卑诗省科技学院大众传播系（BCIT）兴趣：唱歌、电影、听音乐专长：唱歌、电影制作、广告设计未来的希望：希望能够当导演拍电影和主持节目演艺经历1.戏剧：◎国
0在c语言是什么意思？
字符0’对应的ASCII码是48，48对应的十六进制数就是0x30。通常我们在编程的时候，用字符转化为数字的时候经常要用到，比如要将‘8’转换为数字8，在语句中这样写就可以了， 8+0’。这里的8就是数字。c语言是一门面向过程、抽象

推荐阅读

热门文章

最新发布

标签列表

Python数据分析（4）决策树模型

给您推荐相同类型的内容：