基于R语言的申请评分卡

Python010

基于R语言的申请评分卡,第1张

信贷行业中常见的评分卡包括:申请评分卡(Application)、行为评分卡(Behavior)、催收评分卡(Collection)以及反欺诈评分卡(Anti-Fraud),简称为A卡、B卡、C卡和F卡。

A卡,主要应用于贷前准入环节对新用户的信用评级。

B卡,主要应用于贷中管理环节对存量用户的行为预测。

C卡,主要应用于贷后催收环节对存量用户是否催收的预测管理。

F卡,主要应用于贷前准入环节对新用户可能存在的欺诈行为进行预测。

本文通过历史数据建立Logistic回归模型,预测用户出现违约的概率,从而建立申请评分卡模型。

本文数据来自“klaR”包中的German credit data。

加载要用到的数据,并进行初步数据观察:

该数据集包含了1000个样本,每个样本包括21个变量,变量含义如下:

数据清洗主要工作包括缺失值和异常值处理。

查看缺失值情况:

从以上结果可看出,本数据集不存在缺失值。

查看定量指标异常值情况:

从图2可以看出,定量指标中存在异常值。下面,让我们具体来看一下:

根据具体情况来看,定量指标中存在的异常值是基本符合实际情况的,而且数据集样本数量较少,因此不对异常值做处理。(本例比较特殊,实际工作中的情况肯定会比较复杂)

本数据集包含了定量和定性两类指标,接下来我们用不同的方法,筛选出对违约状态影响最大的指标,作为构建模型的变量。

首先,根据简单随机抽样,将数据集划分为训练集和测试集:

以下用随机森林法和Logistic回归方法,寻找对因变量影响最显著的自变量:

综合以上两种方法的结果,我们筛选出了对违约状态影响最显著的四个指标 :duration(3)、age(3)、amount(2)和installment_rate(2)。

通过R中的informationvalue包,计算各指标的IV值,得到各定性指标间的重要性度量,选取其中的high predictive指标:

根据以上结果,我们选择status、credit_history、savings和purpose四个high predictive指标构建模型。

综上,我们共选择了8个变量作为入模变量。

计算定量指标的WOE之前,需要先对定量指标进行分段。下面,优先采用最优分段,其原理是基于条件推理树(conditional inference trees, Ctree)的递归分割算法,核心算法用函数ctree()表示。

从上图可以看出,woe值相差较大,分段效果不错。以下针对amount、age采用相同分段方法。

installment_rate只有1、2、3、4四个值,四个值对应的woe值差别较大,且具有单调性,采用等距分段。

接下来我们需要对定性指标做必要的降维处理,方便计算其WOE值。首先,我们查看一下入模的定性指标的概况:

由以上概况可知,定性指标status、credit_history、和savings的维数最高为5维,最低为4维,维数适中,可以不进行处理。

定性指标purpose的维数多于7维,明显高于其他定性指标。为了避免“维数灾难”,我们根据三条准则进行降维:1.维度间属性相似;2.合并后woe有明显变化;3.单个维度样本量不应过小。

用klaR包中的woe()函数获取入模变量的woe值。

至此,我们已经获得了入模变量对应的woe值。值的注意的是,我们之前将好客户设定为0,坏客户设定为1,所以woe值越大,代表客户违约的概率越大,但traindata中的woe实际是按照好客户为1,坏客户为0计算的,所以与之前变量分箱中计算的woe正好相反。

下面正式开始构建模型,并转换为标准评分卡。

从以上逻辑回归的结果来看,各个变量都通过了显著性检验。同时,为防止多重共线性问题的出现,我们对模型进行VIF检验:

从结果可知,所有变量VIF均小于4,可以判断模型中不存在多重共线性问题。

根据 信用评分卡模型的建立 ,我们可以得到:

获取基础分以及训练集中各变量的分数:

输出CSV格式的标准评分卡:

对测试集中的样本做同样的降维处理:

从以上结果可知,模型准确率ACC为0.77,AUC为0.805,Gini系数为0.61,整体效果尚可。

本文通过对Germancredit数据的挖掘分析,从数据清洗、变量筛选、WOE计算、建模分析到模型验证,创建了一个简单的申请评分卡。

本文用到的数据集比较简单,在实操中,数据清洗应该会占用更多时间和精力。

本文仅进行了一次样本抽样,在实操中,应进行K折交叉检验,提升模型准确度。

开发的模型是基于某一时间的特定样本的,随着时间的推移和信贷政策的变化,样本会发生变化,从而造成模型的区分能力和稳定性变差。一般需要定期对模型的使用情况进行检测并报告模型区分能力和稳定性的变化情况,必要时应采取包括修正模型或重建模型等措施。这是后面需要认真学习的地方!

信用标准评分卡模型开发及实现

信用评分卡模型的建立

任何一个行业或一份工作,都不像我们看上去的那个样子。高校里的学生生活在象牙塔中,不仅对外部世界了解很少,对行业或岗位的认知还存在误解。即便是老师,也基本是毕业后便在学校里工作,对于行业的了解并不比学生多。

但是学生在进行择业时所谓的“好”的、“坏”的主观认识常常都不符合客观情况。一方面,以就业为最终目标的在校生应更多地关注行业和职业信息,了解就业市场动向,尤其对自己比较中意的行业要根据岗位要求早做准备;另一方面,与业界人士交流。但这种交流依然需要你自己有辨别的能力,哪些内容是行业的客观情况,哪些是对方的主观评价。每个人的职业价值观不同,对同一份工作的评价可以差异很大。

信用评级机构是金融机构中相对不那么受到学生关注的一个行业,自然有很大一部分原因是因为薪酬。正因为它不被人太多关注,反而引起了我的好奇,我相信不被关注的事物背后,一定有不为人知的一面,所以就来看看你所不了解的信用评级机构吧。

   被访者背景:黄女士

   前职业:中国建设银行支行

   现职业:某知名信用评级机构分公司

   职务:评估总监

   所学专业:金融学学士 国际商务硕士

   工作时长:2014-2018,4年

2012年毕业后就进入中国建设银行,从坐柜开始,后来进入后台负责公积金业务。对很多人来说,这份工作还不错,因为没有业绩上的压力,而且工作内容也相对比较简单轻松,但我当时觉得这样的工作没什么意义,学不到太多东西,如果我不主动离开,可能一辈子就看到头了,所以在2014年就辞职了,打算考博士,边复习边找工作。

这个时候投了一些资产管理公司,也投了银行和信用评级机构,因为当时打算攻读博士,所以希望能够找到一个有利于自我成长的工作环境,信用评级机构虽然人员很少,但是都是一些名校的学生,如香港中文、对外经贸等等,而且评级机构与其他金融机构不同的是,你可以了解很多金融机构的全貌,可以接触到银行、企业、券商以及政府,这是我以前在银行工作所达不到的。所以我选择了信用评级机构。

收入确实不高,如果你有各种贷款的压力,可能无法接受这样一份工作,我现在作为部门负责人,也要招聘分析师,他们基本都是已有车、有房的年轻人。公司有不同的部门,每个部门的收入构成不太一样,市场部的收入是与绩效挂钩的,分析师的工资相对比较固定,能满足基本的生活开支。

虽然收入不高,但是有很好的个人成长的机会,简单地说,在我们公司工作3年左右的时间,个人也比较努力的话,完全可以胜任券商等金融机构的工作,我们一年要对几十家企业进行评估,每评估一家,就相当于进行了全面的调查了解,这是很宝贵的经验。所以身边的同事其实也是把这份工作作为一个发展的平台。

比如2年前来我们部门的一位90后的男生,其实从当时应届毕业生的素质来看,他都是很优秀的了,即便这样,当时他进入券商或者进入某公司的总部还是比较难的。最后,他留在我们公司工作,一边攻读硕士学位,一边积累工作经验,现在他硕士即将毕业了,也被调入总公司开始工作。当然,这和他本人非常清晰的职业规划是分不开的。

另外,就是能够接受短时间内的收入不高,也有很多学生一听到薪酬待遇就被吓跑了。我们希望每个人都能在公司找到自己所寻求的东西,如果没有,就不要留下来了。否则也是浪费个人和公司的时间和成本。

其他的部门我不敢保证,但是评估部门是这样的,因为分析师的工作对专业知识的要求很高,所以如果你愿意自我学习或者进修,在完成本职工作的情况下,公司是鼓励的。

我们这个团队也会给自己制定学习计划,比如我们今年就计划大家一起学习R语言,所以同事之间是一种互帮互助的良性关系,即便有些同事离职了,我们也会保持很好的关系,而且大家都发展的越来越好。

写作能力。在进行招聘的时候,我们会先安排一个面试,面试没有问题后,会安排一个笔试,就是撰写一个分析报告,给一个星期的准备时间,这要求应聘者有学术规范的文笔,决不能口语化,一定要有逻辑性和财务分析能力。所以写作能力不高,笔试这一关就很难过。

另外,每年要写几十份的分析报告,虽然每个机构的调研我们都是一个团队在做,但是每一次都要有一个人来主要负责撰写分析报告,其他人负责审核,我们要审核很多次才会最终定稿。如果出现明显的错误,这个责任也是很重大的。

每年都有同事跳槽到券商投行部、国企和银行的风险控制部门,因为这些部门对于员工风险管控相关的工作经验十分看重,且此类人才缺口较大;还有一些同事考上了公务员,例如银监局、人民银行等部门,因为他们不仅在信用评级机构积累了丰富的案例,在规范性文章的写作方面也具有过硬的能力,而这些能力是可以迁移的。当然了,能力有了,就希望有更高的收入了。

在项目期间,我们要去企业或者机构进行调研,对企业的方方面面都要了解,比如总体的策略方针,管理层素质,生产和销售状况,财务状况,未来的投资取向,资金流向等;对企业的每个部门要单独走访,为了保证信息的客观性我们也要进行生产现场的调查工作,以实现信息的交叉验证,最终对企业的经营风险和信用风险做出客观的评价,这种评价是综合性的。按照规定,一个企业的评估必须在15个工作日内完成,但是可以多个项目同时进行。在做了二三十个项目后,就会比较轻松了。

分支机构就三个部门左右,综合财务部门、市场部、评级部。综合财务部门人员相对比较固定;市场部要求有一定的资源和金融行业从业经验,市场部男性较多;评级部就都是分析师。总部层面可能会更复杂一些。

国家没有统一的认定,公司内部会有评价标准,具体分为助理分析师、中级分析师和高级分析师,这些评估标准主要按照专业能力、项目经验以及获得的资质来评定。另外,有些评级机构有资本市场评估的资格,进行资本市场评估的分析师需要在相关部门(例如,银行间市场交易商协会)备案。

本科及以上学历,经济学、管理学相关专业,懂得基本的财务知识。如果通过了CPA考试则更有优势。

自我学习的能力,虽然都是撰写分析报告,但是从每个项目中可以学习到不同的东西,自我学习能力就决定了你能否快速找到不同项目中企业的不同,从而更快地找到评估的重点,在行业分析方面,能够快速地进行思维以及评估方法的转换,同时注重总结,否则就不会有太大的提高。

还有就是刚才提到的写作能力和沟通能力。写作能力的提高可以多读一些分析报告,看别人是如何使用规范性语言的;虽然分析师要会写,但是去企业调研的时候,需要和企业负责人进行访谈,而对高管的访谈是项目调研很重要的内容,所以沟通能力也很重要。

相对比较自由的氛围吧,在这个公司工作期间,组建了自己的家庭,有了自己的小孩儿,而且现在还在攻读博士学位。

行业的发展吧,在我进入这个行业之前,我以为信用评级行业会快速地发展起来,但是我们国家的这个行业政策依赖性太强了,没有明确的概念和规划,因此这个行业未来所起到的作用也不是很明确。当然,员工的流动性就比较大,所以如果你入职5年,公司都会给你颁发功勋奖。

我觉得这份工作适合那些目前对工资没有太高要求,但是对个人成长的渴望比较多的学生,比如你的目标是想进入券商工作,但是你现在的能力和资源是满足不了的,那么可以先积累自己的实力,信用评级机构就是很好的平台,可以培养出相关的能力。

以上就是此次职业访谈的所有内容,如果你还有对保险行业或审计岗位感兴趣的问题,欢迎后台留言,我会尽量帮忙解答。

(以上内容已获得被访谈者本人的同意发布)

最后,我必须提醒的是,职业访谈所针对的是即将进入该行业的绝大多数人想要了解的内容所进行的访谈,但对于个别人,不具备太大的参考价值,金融机构多数为结果导向、注重资源整合,因此如果你拥有很好的资源或具备整合资源的能力,那么你在一家金融机构中的成长和发展路径和别人可以不一样的,我不是说你就不用努力了,你同样需要思考你未来的发展方向,当然对自己也应该有更高的要求。