R语言数据分析实例一：离职率分析与建模预测

2023-02-27 01:36:02Python027

R语言数据分析实例一：离职率分析与建模预测,第1张

本文分析利用IBM离职员工数据进行分析。在对离职率的影响因素进行观察的基础至上，建立模型并预测哪些员工更易离职。

一般而言，数据分析分为三个步骤：数据收集与清洗、探索性分析和建模预测。本文的数据集是IBM用于研究员工预测的 模拟数据 ，数据十分完整，无需清洗。因此，本文主要分为三个部分：

通过对IBM离职员工数据实践，本文希望发掘出影响员工流失的因素，并对利用R语言进行数据分析过程进行复习，深化对数据分析工作意义的理解。

IBM离职员工数据集共有35个变量，1470个观测个案。部分需要重点关注的变量如下：

上述变量可以分为三个部分：

载入分析包和数据集

通过描述性统计可以初步观测到：

分析结果：

基于对数据的探索性分析，员工离职有多方面因素的影响，主要有：

1.工作与生活的不平衡——加班、离家远和出差等；

2.工作投入如果不能获得相匹配的回报，员工更倾向离职；

3.优先股认购等福利是员工较为关注的回报形式；

4.年龄、任职过的公司数量的因素也会影响员工离职率；

删除需要的变量：EmployeeCount, EmployeeNumber, Over18, StandardHours

变量重新编码：JobRole, EducationFiled

分析结果表明：

随机森林所得的AUC值为0.5612，小于决策树模型。

GBM模型得到的AUC值为0.5915

对于对于随机森林和GBM的方法，AUC值小于单一决策树模型的AUC值的情况较少见，这显然说明单一的树拟合得更好或者更稳定的情况。（一般需要得到AUC值大于0.75的模型）

当结果分类变量之间的比列是1：10或者更高的时候，通常需要考虑优化模型。本例中，离职变量的比列是1：5左右，但仍然可能是合理的，因为在决策树中看到的主要问题是预测那些实际离开的人（敏感度）。

加权旨在降低少数群体中的错误，这里是离职群体。

向上采样（up-sampling）指从多数类中随机删除实例。

向下采样（down-sampling）指从少数类中复制实例。

分析结果表明：

加权调整的模型表现最好，相比较于单纯的随机森林和GBM模型，AUC值从0.5612上升至0.7803，灵敏度也达到了0.7276。据此，后续将采用加权调整后的模型进行预测。

已经训练出一个表现较好的模型。将其应用于实践时，需要注意以下几个方面：

可以观察到影响员工流失的前5个因素是：

因此，在实践中就需要注意：

本例中对工作投入高、收入低的员工进行预测。

本例分析仍有需要足够完善的地方，还可以往更多更有意义的地方探索：

ggsurvplot(

fit, #生存分析结果

data = NULL, #a dataset used to fit survival curves

fun = NULL, # 定义生存曲线转换的任意函数。经常使用的转换可以用字符参数指定:“event”绘制累积事件(f(y) = 1-y)，“cumhaz”绘制累积风险函数(f(y) = -log(y))，“pct”以百分比表示生存概率。

color = NULL, #曲线颜色

palette = NULL, #颜色调色板，可选调色板有 "grey","npg","aaas","lancet","jco", "ucscgb","uchicago","simpsons"和"rickandmorty".

linetype = 1, #线条形状，可以用数值型向量1，2表示，也可以用字符串向量c("solid", "dashed").

conf.int = FALSE, #是否画出置信区间

pval = FALSE, #是否显示P值

pval.method = FALSE, #是否添加计算P值得方法得文本，前提是pval = TRUE

test.for.trend = FALSE, #默认是F，如果TURE，返回trend Pvalues检验。趋势检验旨在检测生存曲线的有序差异。也就是说，至少对一个群体来说。只有组数为>2时，才能进行趋势测试。

surv.median.line = "none", #画一条水平或者垂直得生存中位值线，允许的值有c("none", "hv", "h", "v"). v: 垂直vertical, h:水平horizontal.

risk.table = FALSE, #是否显示风险table。其他值有absolute" or "percentage",显示绝对数值/百分比；参数"abs_pct" ,百分比以及绝对数值都显示

cumevents = FALSE, # logical value specifying whether to show or not the table of the cumulative number of events.

cumcensor = FALSE, #logical value specifying whether to show or not the table of the cumulative number of censoring.

tables.height = 0.25, #设置table得高度，取值范围0-1

group.by = NULL, #包含分组变量名称得字符串向量。长度<=2

facet.by = NULL, #一个字符向量，包含将生存曲线分成多个面板的分组变量的名称。

add.all = FALSE, #一个逻辑值。如果为TRUE，则在主图中添加合并患者(null model)的生存曲线。

combine = FALSE, # a logical value. If TRUE, combine a list survfit objects on the same plot.

ggtheme = theme_survminer(), #主题名称

tables.theme = ggtheme, #主题名称，默认是theme_survminer.

... #后面描述的参数和其他参数将被传递给ggplot2 geom_*()函数，如linetype, size, ii)或ggpar()函数来定制图形。看到的细节部分

)

R中的因子用于存储不同类别的数据，可以用来对数据进行分组，例如人的性别有男和女两个类别，根据年龄可以将人分为未成年人和成年人，考试成绩可以分为优，良，中，差。

R 语言创建因子使用** factor() **函数，向量作为输入参数。

factor() 函数语法格式：

参数说明：

以下实例把字符型向量转换成因子：

我们可以看到输出sex的时候，除了显示字符串的内容以外，这里还有一行levels，证明sex有两个level（类别），female和male。这个顺序也是有讲究的，一般是按字母顺序来排列。我们也可以按照自己的需要来排列因子的顺序。以下实例设置因子水平为levels=c("male","female")：

你会发现现在levels的顺序就按照你设置的来显示了。

我们还能够设置显示的标签

可以看到虽然最初我们构建的向量里面包含的是male和female，最后因子却变成了man和woman。关于这个参数后面我们还会给大家举个更实际的，跟临床数据相关的例子。

R中的因子使用还是更广泛的，例如做差异表达分析的时候我们可以根据因子将数据分成两组。绘制boxplot的时候，我们也可以根据因子来将数据分成两组。更多的实例可以参考下面的视频讲解

☞ R语言基础培训

【R语言】R中的因子（factor）

数据因子员工向量模型

# 上一篇：R语言DESeq2基因差异表达分析

# 下一篇：GO语言（十五）：泛型入门（下）-