python最优分箱中woe计算(求大圣)

Python013

python最优分箱中woe计算(求大圣),第1张

>>>list =[None,None,None,None,"a","b","c",None,"d",12,None,2,4,5,4]>>>list = list[4:]>>>len(list)11>>>list['a', 'b', 'c', None, 'd', 12, None, 2, 4, 5, 4]>>>#如果你的list 格式是相同的 比如前面4个都是None,这个格式是固定的,那么切片很容易解决

   创建评分卡的基本过程可以总结为以下几个步骤。

确定最终评分卡将被纳入模型变量

使用WOE值和模型参数,为不同变量的每一类或每一段相应的分配分值。模型的截距项用于计算评分卡的基准点。

每个变量类别或分段分配的分值都根据对应的变量取值范围制成表格。

为了便于实施,经常要将评分卡表现为某种程序的形式。流行的实施语言是sas,sql和c。

    sas实施过程中面临的挑战是模型参数及其对应的变量类别和分段woe的转化。以下为生成评分卡的流程步骤。

用模型的迭代变量选择法收集变量,这些变量可以用简单列表的形式存储在一个宏变量中。

建模变量有两种主要类型:名义变量和连续变量,名义变量可能包含字符串或者数字值。这些变量的一部分需要进行转化,主要是为了分类或降低名义变量的基数性,所有连续变量都要分段。分段后的变量名可以为原始变量名称加上后缀_b,分段或降基的映射数据集可以命名为原始变量名加后缀_Map。

在拟合模型前,所有变量都要进行WOE转换。转化后的变量加后缀_woe,映射

最终的logistic回归模型包含的是原始变量的一个子集,模型在变量WOE形式的基础上计算相关系数。模型参数存储字啊一个模型数据集中。

    因此,生成评分卡的最终格式的过程基本上可以追溯到最终logistic回归模型中出现不同变量的分段值和类别。为了方便该过程的实施,变量和数据集命名要遵循一定的系统性规则。

    因此,生成评分卡需要的要素是刻度参数以及下列数据集:

最终模型参数数据集

WOE映射数据集(带有后缀_woe)

分段及降低基数的映射数据集(带有后缀_map)

对于字符型和数值型变量,可以分别用宏%DummyGrps和%DummyGrpn进行虚拟变量降基。

    宏%GenSCDS将生成一个包含评分卡得分的中间数据集。该数据集将以SAS、C和SQL的形式生成不同的评分卡代码。该宏的输入项是包含模型参数估计、评分卡刻度参数的数据集。

最终模型中原始变量的名称。

连续变量每段或名义变量每个类别的上限和下限及其等价的分值。

可以用上述的结果,重新生成几种形式的评分卡。便于样本内测试集及样本外测试集直接使用。

或者也可以生成csv和sql,客户可以直接使用。

相关阅读:

氢气在常温下压缩

链接: https://pan.baidu.com/s/1ajBupGpGqnWEqhFsp-aOBA

?pwd=fbdv 提取码: fbdv