python写算法不好

Python013

python写算法不好,第1张

基于以下三个原因,我们选择Python作为实现机器学习算法的编程语言:(1) python的语法清晰;(2) 易于操作纯文本文件;(3) 使用广泛,存在大量的开发文档。

可执行伪代码

Python具有清晰的语法结构,大家也把它称作可执行伪代码(executable pseudo-code)。默认安装的Python开发环境已经附带了很多高级数据类型,如列表、元组、字典、集合、队列等,无需进一步编程就可以使用这些数据类型的操作。使用这些数据类型使得实现抽象的数学概念非常简单。此外,读者还可以使用自己熟悉的编程风格,如面向对象编程、面向过程编程、或者函数式编程。

Python语言处理和操作文本文件非常简单,非常易于处理非数值型数据。Python语言提供了丰富的正则表达式函数以及很多访问Web页面的函数库,使得从HTML中提取数据变得非常简单直观。

Python比较流行

Python语言使用广泛,代码范例也很多,便于读者快速学习和掌握。此外,在开发实际应用程序时,也可以利用丰富的模块库缩短开发周期。

在科学和金融领域,Python语言得到了广泛应用。SciPy和NumPy等许多科学函数库都实现了向量和矩阵操作,这些函数库增加了代码的可读性,学过线性代数的人都可以看懂代码的实际功能。另外,科学函数库SciPy和NumPy使用底层语言(C和Fortran)编写,提高了相关应用程序的计算性能。本书将大量使用Python的NumPy。

Python的科学工具可以与绘图工具Matplotlib协同工作。Matplotlib可以绘制2D、3D图形,也可以处理科学研究中经常使用到的图形,所以本书也将大量使用Matplotlib。

Python开发环境还提供了交互式shell环境,允许用户开发程序时查看和检测程序内容。

Python开发环境将来还会集成Pylab模块,它将NumPy、SciPy和Matplotlib合并为一个开发环境。在本书写作时,Pylab还没有并入Python环境,但是不远的将来我们肯定可以在Python开发环境找到它。

Python语言的特色

诸如MATLAB和Mathematica等高级程序语言也允许用户执行矩阵操作,MATLAB甚至还有许多内嵌的特征可以轻松地构造机器学习应用,而且MATLAB的运算速度也很快。然而MATLAB的不足之处是软件费用太高,单个软件授权就要花费数千美元。虽然也有适合MATLAB的第三方插件,但是没有一个有影响力的大型开源项目。

Java和C等强类型程序设计语言也有矩阵数学库,然而对于这些程序设计语言来说,最大的问题是即使完成简单的操作也要编写大量的代码。程序员首先需要定义变量的类型,对于Java来说,每次封装属性时还需要实现getter和setter方法。另外还要记着实现子类,即使并不想使用子类,也必须实现子类方法。为了完成一个简单的工作,我们必须花费大量时间编写了很多无用冗长的代码。Python语言则与Java和C完全不同,它清晰简练,而且易于理解,即使不是编程人员也能够理解程序的含义,而Java和C对于非编程人员则像天书一样难于理解。

所有人在小学二年级已经学会了写作,然而大多数人必须从事其他更重要的工作。

——鲍比·奈特

也许某一天,我们可以在这句话中将“写作”替代为“编写代码”,虽然有些人对于编写代码很感兴趣,但是对于大多数人来说,编程仅是完成其他任务的工具而已。Python语言是高级编程语言,我们可以花费更多的时间处理数据的内在含义,而无须花费太多精力解决计算机如何得到数据结果。Python语言使得我们很容易表达自己的目的。

Python语言的缺点

Python语言唯一的不足是性能问题。Python程序运行的效率不如Java或者C代码高,但是我们可以使用Python调用C编译的代码。这样,我们就可以同时利用C和Python的优点,逐步地开发机器学习应用程序。我们可以首先使用Python编写实验程序,如果进一步想要在产品中实现机器学习,转换成C代码也不困难。如果程序是按照模块化原则组织的,我们可以先构造可运行的Python程序,然后再逐步使用C代码替换核心代码以改进程序的性能。C++ Boost库就适合完成这个任务,其他类似于Cython和PyPy的工具也可以编写强类型的Python代码,改进一般Python程序的性能。

如果程序的算法或者思想有缺陷,则无论程序的性能如何,都无法得到正确的结果。如果解决问题的思想存在问题,那么单纯通过提高程序的运行效率,扩展用户规模都无法解决这个核心问题。从这个角度来看,Python快速实现系统的优势就更加明显了,我们可以快速地检验算法或者思想是否正确,如果需要,再进一步优化代码。

项目介绍:

p2p 借贷业务具有门槛低,渠道成本低的特性,风险防控对于出借企业来说非常重要。本项目需要

从大量借贷者的数据集中分析出容易违约和不容易违约的人群画像特征,以给业务做贷前决策使

用。同时使用机器学习算法,实现自动识别风险人群(精准率为 89.86%),加快人工审查效率。

项目具体内容:

1、使用 python pandas 工具进行数据清洗、缺失值、异常值处理以及特征指标筛选。

2、使用 python matplotlib 可视化工具进行探索式数据分析,展示用户关键特征如月收入、信用卡

透支情况对于违约率的影响情况。

3、使用机器学习随机森林进行建模分析,使用学习曲线、网格搜索、交叉验证,最终得到了一个评

分为 84.9%、精准率为 89.86%、召回率为 80.70%、auc 面积为 0.9337 数据预测模型。

    本次数据训练使用的模型是随机森林分类算法,通过对预处理过的数据集进行训练,使用学习曲线、网格搜索、交叉验证。最终得到了一个评分为84.9%、精准率为89.86%、召回率为80.70%、 auc面积为0.9337 数据预测模型。 

数据预处理的基本流程与思路:

1、首先要明确有多少特征,哪些是连续的,哪些是类别的。

2、检查有没有缺失值,对确实的特征选择恰当方式进行弥补,使数据完整。

3、对连续的数值型特征进行标准化,使得均值为0,方差为1。

4、对类别型的特征进行one-hot编码。

5、将需要转换成类别型数据的连续型数据进行二值化。

6、为防止过拟合或者其他原因,选择是否要将数据进行正则化。

7、在对数据进行初探之后发现效果不佳,可以尝试使用多项式方法,寻找非线性的关系。

8、根据实际问题分析是否需要对特征进行相应的函数转换。

导入数据集,并查看数据基本情况。可以看到prosper原始数据量比较庞大,一个有113937个样本,80个特征列,1个标签列。

1.1、特征较多,先共删减一部分无用的特征。

1.2 查看数据缺失情况,可以看到有40个特征是存在数据缺失的,缺失率从0.000219-0.882909不等。下面处理缺失数据。

1.2.1 删除缺失值比较多的特征

下面两个特征缺失率太高,且与我们要分析的相关性不大,直接删除掉。

1.2.2 获取数据类型是分类变量的所有特征,并使用unknown进行填充

1.2.3 特殊变量使用计算公式进行填充

1.2.4 去掉意义重复列

1.2.5 删除缺失率比较少的特征的缺失数据行

处理完缺失数据后,样本量为106290,特征量为55

1.3 数据过滤

1.3.1 从2009年7月开始,Prosper调整了对客户的评估方式,此次我们只对2009-07-01后的贷款进行分析。

过滤完数据后,样本量变为82931,特征量为54

2.1单变量分析

0为未违约人数,1位违约人数,可以看到2009.07以后,违约率为22.90%

2.1.1不同地区贷款数量分布

从图中可以看到加利福尼亚州贷款数量远比其他州的数量高。由于prosper总部就位于加利福尼亚州,这与实际情况一致。其他排名靠前的分别是得克萨斯、纽约、佛罗里达、伊利诺伊,贷款数据均超过了5000条。根据2015年美国各州的GDP排名,这5个州刚好排名前五,而且顺序也是一致的。说明Prosper平台的用户主要分布在美国经济发达的地区。

2.1.2 贷款人收入情况分布

年薪在25000美金以上在美国属于技术性白领或者有一定学历的职员,50000美金已经是近金领阶层,比如:大学教授,医生等。从图中可以看出Prosper平台用户的收入水平都相对较高,有利于用户还款,利于平台和投资者的风险控制。

2.1.3贷款人职业分布

从图中可以看出,除了不愿意透露具体职业的人,大部分用户是教授、程序员、企业高管等具有一定社会地位的人,这部分人受过高等教育,信用有一定保障。另外,这与之前看到的收入情况相符。

2.1.4贷款人债务收入比分布

大部分用户的债务收入比在0.2左右,超过0.5的占很少部分。说明Prosper平台用户的还款能力还是比较乐观的

2.1.5 贷款者信用卡使用情况

BankcardUtilization代表的是信用卡使用金额和信用卡额度的比值,可以体现用户的资金需求。Prosper用户多是0.5~1之间,说明用户每个月还有信用卡要还,降低了其还款能力。

2.2 相关的关键因素对贷款违约率的影响

2.2.1借贷人收入IncomeRange对违约率的影响

从图中可以看出:

1.一般来说收入越高违约率越低

2.贷款的人员主要集中在中等收入群体

2.2.2 债务收入比DebtToIncomeRatio对违约率的影响

从上图可以看出:

1.债务收入比小于0.6时,违约数明显小于未违约数,

2.当债务收入比大于0.6时,两者的差距不是很明显甚至违约数大于未违约数,说明了债务收入比越大的人越容易违约

2.2.3 借款人BankcardUtilization对违约率的影响

1.总的来说,随着信用卡的透支比例越来越高,违约率也越来越高

2.SuperUse的违约率到了37.5%,这部分人群需要严格了监控,No Use人群也有31%的违约率,当初将信用卡透支比例为0和NA的数据都归类为No Use,显然没有这么简单,应该是大部分人群的NA值是为了隐藏自己的高透支比例而填写的

2.2.4 消费信用分CreditScoreRange对违约率的影响

从上图可以看出:

1.随着信用分数CreditScore的上升,它的违约率在下降

2.大部分贷款者的信用分为650-800,违约率在0.06-0.02

2.2.5 过去7年借款人违约次数DelinquenciesLast7Years对违约率的影响

过去七年违约次数(DelinquenciesLast7Years)能够衡量一个人在过去七年中征信情况,违约一次或以上的人在借款时违约概率更大。

 从上图可以看出:

1.总体来说过去7年违约次数越多,违约率越高

2.过去7年未违约的人数相对来说比其他违约的人数高很多,具体看下面的分析

3.1 数据转化

3.1.1类变量进行哑变量化

样本量变为82931,特征量为127

3.1.2 标签变量进行二分类

已完成贷款的样本量变为26365,特征量为127

未违约率为:0.7709084012895885;违约率为0.22909159871041151

3.2 至此,数据预处理的工作就告一段落,保存预处理好的数据。

 导入经过预处理的prosper借贷数据集

4.1 手工挑选特征查看一下建模效果

准确率为0.7695

4.2 使用模型自己选取特征

准确率为0.7780

4.3 使用学习曲线选取最优n_estimators

在0-200/20内学习,得到最优n_estimators=161,score = 0.8508

在151-171/20内学习,得到最优n_estimators=163,score = 0.8511

4.4 使用网格搜索调其他参数

在0-60/5内学习,得到最优max_depth=41

在0-60/5内学习,得到最优max_features=16

这里由于比较耗时,没有进一步细化选择更高的参数

4.4 最终模型效果

最终准确率 0.8490528905289052

混淆矩阵 :

[[5552  554]

[1175 4914]]

精准率 : [0.82533076 0.89868325]

召回率 : [0.90926957 0.80702907]

roc和auc面积为0.9337

4.5 查看各特征的重要性

4.6 数据预测

预测的违约率0.0427

第一、NumPy

NumPy是Numerical

Python的简写,是Python数值计算的基石。它提供多种数据结构、算法以及大部分涉及Python数值计算所需的接口。NumPy还包括其他内容:

①快速、高效的多维数组对象ndarray

②基于元素的数组计算或数组间数学操作函数

③用于读写硬盘中基于数组的数据集的工具

④线性代数操作、傅里叶变换以及随机数生成

除了NumPy赋予Python的快速数组处理能力之外,NumPy的另一个主要用途是在算法和库之间作为数据传递的数据容器。对于数值数据,NumPy数组能够比Python内建数据结构更为高效地存储和操作数据。

第二、pandas

pandas提供了高级数据结构和函数,这些数据结构和函数的设计使得利用结构化、表格化数据的工作快速、简单、有表现力。它出现于2010年,帮助Python成为强大、高效的数据分析环境。常用的pandas对象是DataFrame,它是用于实现表格化、面向列、使用行列标签的数据结构以及Series,一种一维标签数组对象。

pandas将表格和关系型数据库的灵活数据操作能力与Numpy的高性能数组计算的理念相结合。它提供复杂的索引函数,使得数据的重组、切块、切片、聚合、子集选择更为简单。由于数据操作、预处理、清洗在数据分析中是重要的技能,pandas将是重要主题。

第三、matplotlib

matplotlib是最流行的用于制图及其他二维数据可视化的Python库,它由John D.

Hunter创建,目前由一个大型开发者团队维护。matplotlib被设计为适合出版的制图工具。

对于Python编程者来说也有其他可视化库,但matplotlib依然使用最为广泛,并且与生态系统的其他库良好整合。

第四、IPython

IPython项目开始于2001年,由Fernando

Pérez发起,旨在开发一个更具交互性的Python解释器。在过去的16年中,它成为Python数据技术栈中最重要的工具之一。

尽管它本身并不提供任何计算或数据分析工具,它的设计侧重于在交互计算和软件开发两方面将生产力最大化。它使用了一种执行-探索工作流来替代其他语言中典型的编辑-编译-运行工作流。它还提供了针对操作系统命令行和文件系统的易用接口。由于数据分析编码工作包含大量的探索、试验、试错和遍历,IPython可以使你更快速地完成工作。

第五、SciPy

SciPy是科学计算领域针对不同标准问题域的包集合。以下是SciPy中包含的一些包:

①scipy.integrate数值积分例程和微分方程求解器

②scipy.linalg线性代数例程和基于numpy.linalg的矩阵分解

③scipy.optimize函数优化器和求根算法

④scipy.signal信号处理工具

⑤scipy.sparse稀疏矩阵与稀疏线性系统求解器

SciPy与Numpy一起为很多传统科学计算应用提供了一个合理、完整、成熟的计算基础。

第六、scikit-learn

scikit-learn项目诞生于2010年,目前已成为Python编程者首选的机器学习工具包。仅仅七年,scikit-learn就拥有了全世界1500位代码贡献者。其中包含以下子模块:

①分类:SVM、最近邻、随机森林、逻辑回归等

②回归:Lasso、岭回归等

③聚类:K-means、谱聚类等

④降维:PCA、特征选择、矩阵分解等

⑤模型选择:网格搜索、交叉验证、指标矩阵

⑥预处理:特征提取、正态化

scikit-learn与pandas、statsmodels、IPython一起使Python成为高效的数据科学编程语言。