86-预测分析-R语言实现-树模型rpart

Python026

86-预测分析-R语言实现-树模型rpart,第1张

数据集的行是游戏玩家们玩的每一次游戏,列是某个玩家玩游戏时的速度、能力和决策,都是数值型变量

任务是根据这些表现的衡量指标来预测某个玩家当前被分配到8个联赛中的哪一个,输出变量(LeagueIndex)是一个有序的类别变量,序号从1到8,最后一个对应的是技术最高的玩家组成的联赛。

一种对待序号输出的可能方式是把它们当作一个数值型变量,作为回归任务来建模,并构建一个回归树。GameID列表示唯一的游戏标识符,跟模型无关,可以丢弃;另外TotalHours列被识别为字符型,需要修正为数值型。

Age、HoursPerWeek和TotalHours存在缺失值,直接删除带有缺失值的行。(虽然树模型可以自动处理缺失值,但是后面还会使用其他模型来对比,那些模型不一定能处理缺失值)

使用rpart包构建回归树模型。

对于输入特征,我们会关注它用在树里任何地方时产生的优化准则(例如偏差或SSE)里的约简,将树里所有分裂的这个量值汇总起来,就得到变量重要性的相对数量。

越重要的变量会越早用来分裂数据(离根节点更近),也会更常用到。如果一个变量从来没有用过,那么就是不重要的,通过这种方式,可以用来做特征选择,但是这种方法对特征中的相关性敏感。

Logistic回归在做风险评估时,一般采用二值逻辑斯蒂回归(Binary Logistic Regression)。以滑坡灾害风险评估为例。1、滑坡发生与否分别用0和1表示(1表示风险发生,0表示风险未发生);2、确定影响滑坡风险的影响因子,这个根据区域具体情况而定,一般包括:地层岩性、植被、降水、地貌、断层、人类活动等等。如果是其他风险的话也根据具体情况而定(咨询专家就可以知道)。3、构建回归分析的样本。Logistic回归也是统计学里面的内容,所以必须得构建统计分析的样本。以构建滑坡风险统计分析的样本为例,先找出滑坡发生的地区,同时计算滑坡发生地区的各个影响因子的指标值。再选择滑坡未发生的地区,同时计算滑坡未发生地区各个影响因子的指标值。这样,就构建了统计样本,自变量为各个影响因子的指标值,应变量为0和1,。把样本导入SPSS里面进行分析,就可以构建自变量和因变量之间的非线性关系模型,然后用这个模型继续求解其他区域滑坡风险的概率值。

希望我的答案对你能有帮助!