如何用python实现随机森林分类

Python019

如何用python实现随机森林分类,第1张

大家如何使用scikit-learn包中的类方法来进行随机森林算法的预测。其中讲的比较好的是各个参数的具体用途。

这里我给出我的理解和部分翻译:

参数说明:

最主要的两个参数是n_estimators和max_features。

n_estimators:表示森林里树的个数。理论上是越大越好。但是伴随着就是计算时间的增长。但是并不是取得越大就会越好,预测效果最好的将会出现在合理的树个数。

max_features:随机选择特征集合的子集合,并用来分割节点。子集合的个数越少,方差就会减少的越快,但同时偏差就会增加的越快。根据较好的实践经验。如果是回归问题则:

max_features=n_features,如果是分类问题则max_features=sqrt(n_features)。

如果想获取较好的结果,必须将max_depth=None,同时min_sample_split=1。

同时还要记得进行cross_validated(交叉验证),除此之外记得在random forest中,bootstrap=True。但在extra-trees中,bootstrap=False。

这里也给出一篇老外写的文章:调整你的随机森林模型参数http://www.analyticsvidhya.com/blog/2015/06/tuning-random-forest-model/ 

这里我使用了scikit-learn自带的iris数据来进行随机森林的预测:

[python] view plain copy

from sklearn.tree import DecisionTreeRegressor

from sklearn.ensemble import RandomForestRegressor

import numpy as np

from sklearn.datasets import load_iris

iris=load_iris()

#print iris#iris的4个属性是:萼片宽度 萼片长度 花瓣宽度 花瓣长度 标签是花的种类:setosa versicolour virginica

print iris['target'].shape

rf=RandomForestRegressor()#这里使用了默认的参数设置

rf.fit(iris.data[:150],iris.target[:150])#进行模型的训练

#

#随机挑选两个预测不相同的样本

instance=iris.data[[100,109]]

print instance

print 'instance 0 prediction;',rf.predict(instance[0])

print 'instance 1 prediction;',rf.predict(instance[1])

print iris.target[100],iris.target[109]

返回的结果如下:

(150,)

[[ 6.3  3.3  6.   2.5]

 [ 7.2  3.6  6.1  2.5]]

instance 0 prediction; [ 2.]

instance 1 prediction; [ 2.]

2 2

在这里我有点困惑,就是在scikit-learn算法包中随机森林实际上就是一颗颗决策树组成的。但是之前我写的决策树博客中是可以将决策树给显示出来。但是随机森林却做了黑盒处理。我们不知道内部的决策树结构,甚至连父节点的选择特征都不知道是谁。所以我给出下面的代码(这代码不是我的原创),可以显示的显示出所有的特征的贡献。所以对于贡献不大的,甚至是负贡献的我们可以考虑删除这一列的特征值,避免做无用的分类。

[python] view plain copy

from sklearn.cross_validation import cross_val_score, ShuffleSplit

X = iris["data"]

Y = iris["target"]

names = iris["feature_names"]

rf = RandomForestRegressor()

scores = []

for i in range(X.shape[1]):

score = cross_val_score(rf, X[:, i:i+1], Y, scoring="r2",

cv=ShuffleSplit(len(X), 3, .3))

scores.append((round(np.mean(score), 3), names[i]))

print sorted(scores, reverse=True)

显示的结果如下:

[(0.934, 'petal width (cm)'), (0.929, 'petal length (cm)'), (0.597, 'sepal length (cm)'), (0.276, 'sepal width (cm)')]

这里我们会发现petal width、petal length这两个特征将起到绝对的贡献,之后是sepal length,影响最小的是sepal width。这段代码将会提示我们各个特征的贡献,可以让我们知道部分内部的结构。

或看好Python的广阔前景,或看中Python的语法简洁,越来越多零基础的人选择学Python。但是Python基础知识有哪些呢?Python部分基础知识点汇总

数据类型:编程中操作的每一个数据都是有其类型的,比如我们的程序需要进行数学计算,那么进行计算的参数和结果就都是数值,我们需要输入、输出一段话,那么这段话就是一个字符串。

变量和常量:变量有什么用?怎么使用?常量又是做什么的?

控制流语句:控制流语句让程序变得更加灵活,稍微复杂一些的程序都需要用到控制流语句中的判断和循环,那么如何在Python中高效应用控制流语句就显得非常重要。

函数:当程序开始复杂起来,某些功能可能需要多次使用的时候,我们就可以把这个功能封装成“函数”,函数就像是工具箱里一件件的工具,在需要的时候打开工具箱拿出即可使用。

数据结构:Python怎么处理数据?列表、元组、集合、字典分别有什么特性都需要详细了解。

异常处理:当你的程序开始复杂起来,可能会遇到某些不确定是否会出现错误的情况,这个时候怎样自定义异常、处理异常就十分重要。

注释:不写注释的程序员不是好程序员。

面向对象:面向对象是一种编程思想,可以让程序变得更可复用,同时逻辑更清晰,效率最高。

文件操作:很多时候我们需要对本地文件进行一些增删改查的操作。

模块和包:Python之所以如此受欢迎,很大程度上得益于它有非常丰富模块和包,这些东西可以让你少造轮子。

Python与网络:python获取网页信息、与其他计算机通信、访问数据库等。

以上大部分其实是编程基础,但是只学这些还是不够的,很多企业招聘的Python岗位均需要和其他方向内容相结合,比如大数据、运维、Web等等。因此零基础快速入门进阶Python技能还需要进行系统的学习。

Python作为一门理想的集成语言,将各种技术绑定在一起,除了为用户提供更方便的功能之外,还是一个理想的粘合平台,在开发人员与外部库的低层次集成人员之间搭建连接,以便用C、C++实现更高效的算法。

使用Python编程可以快速迁移代码并进行改动,无须花费过多的精力在修改代码与代码规范上。开发者在Python中封装了很多优秀的依赖库,可以直接拿来使用,常见的机器学习库如下:

1、Scikit-Learn

Scikit-Learn基于Numpy和Scipy,是专门为机器学习建造的一个Python模块,提供了大量用于数据挖掘和分析的工具,包括数据预处理、交叉验证、算法与可视化算法等一系列接口。

Scikit-Learn基本功能可分为六个部分:分类、回归、聚类、数据降维、模型选择、数据预处理。其中集成了大量分类、回归、聚类功能,包括支持向量机、逻辑回归、随机森林、朴素贝叶斯等。

2、Orange3

Orange3是一个基于组件的数据挖掘和机器学习软件套装,支持Python进行脚本开发。它包含一系列的数据可视化、检索、预处理和建模技术,具有一个良好的用户界面,同时也可以作为Python的一个模块使用。

用户可通过数据可视化进行数据分析,包含统计分布图、柱状图、散点图,以及更深层次的决策树、分层聚簇、热点图、MDS等,并可使用它自带的各类附加功能组件进行NLP、文本挖掘、构建网络分析等。

3、XGBoost

XGBoost是专注于梯度提升算法的机器学习函数库,因其优良的学习效果及高效的训练速度而获得广泛的关注。XGBoost支持并行处理,比起同样实现了梯度提升算法的Scikit-Learn库,其性能提升10倍以上。XGBoost可以处理回归、分类和排序等多种任务。

4、NuPIC

NuPIC是专注于时间序列的一个机器学习平台,其核心算法为HTM算法,相比于深度学习,其更为接近人类大脑的运行结构。HTM算法的理论依据主要是人脑中处理高级认知功能的新皮质部分的运行原理。NuPIC可用于预测以及异常检测,使用面非常广,仅要求输入时间序列即可。

5、Milk

Milk是Python中的一个机器学习工具包。Milk注重提升运行速度与降低内存占用,因此大部分对性能敏感的代码都是使用C++编写的,为了便利性在此基础上提供Python接口。重点提供监督分类方法,如SVMs、KNN、随机森林和决策树等。