R语言游戏数据分析与挖掘:为什么要对游戏进行分析

Python021

R语言游戏数据分析与挖掘:为什么要对游戏进行分析,第1张

本书从实际应用出发,结合实例及应用场景,通过对大量案例进行详细阐述和深入分析,进而指导读者在实际工作中通过R语言对 游戏 数据进行分析和挖掘。这是一本关于数据分析实战的书籍,里面的知识、方法、理论是可以直接应用到整个互联网的。

全书一共13章,分为三篇:基础篇、实战篇和提高篇。

第一篇是基础篇(第1~4章): 介绍了 游戏 数据分析的基本理论知识、R语言的安装与使用、R语言中的数据结构、常用操作和绘图功能。

第1章主要介绍了 游戏 数据分析的必要性和流程;第2章讲解了R语言和RStudio的安装及使用方法,并对数据对象和数据导入进行了介绍;第3章介绍了R语言绘图基础,包括常用图形参数设置、低级绘图函数和高级绘图函数;第4章介绍了lattice和ggplot2绘图包,并详细介绍了一些基于R语言可用于生成交互式图形的软件包,包括rCharts、recharts、rbokeh、plotly等。

第二篇是实战篇(第5~11章): 主要介绍了 游戏 数据的预处理、常用分析方法、玩家路径分析和用户分析。

第5章介绍了 游戏 数据预处理常用的手段,包括数据抽样、数据清洗、数据转换和数据哑变量处理;第6章介绍了 游戏 数据分析的常用方法,包括指标数据可视化、 游戏 数据趋势分析、 游戏 数据相关性分析和 游戏 数据中的降维技术;第7章介绍了事件点击行为常用的漏斗分析和路径分析;第8章介绍了留存指标的计算、留存率计算与预测、常用分类算法原理和模型评估;第9章介绍了常用用户指标计算、LTV计算与预测、用户物品购买关联分析、基于用户物品购买智能推荐和 社会 网络分析;第10章介绍了渠道数据分析的必要性和对渠道用户进行质量评级;第11章介绍了常用收入指标计算、利用用户活跃度衡量 游戏 经济状况、RFM模型研究。

第三篇是提高篇(第12~13章): 介绍了R语言图形界面工具Rattle和Web开发框架shiny包。

第12章介绍了R语言的图形界面工具Rattle,该工具能够在图形化的界面上完成数据导入、数据 探索 、数据可视化、数据建模和模型评估整个数据挖掘流程;第13章介绍了Web开发框架shiny包,使得R的使用者不必太了解CSS、JS,只需要了解一些HTML的知识就可以快速完成Web开发。

关键词: 程序语言,程序设计

完整课程可前往UWA学堂《R语言 游戏 数据分析与挖掘》阅读。

https://edu.uwa4d.com/course-intro/0/383

随着 游戏 市场竞争的日趋激烈,在如何获得更大收益延长 游戏 周期的问题上,越来越多的手机 游戏 开发公司开始选择借助大数据,以便挖掘更多更细的用户群来进行精细化、个性化的运营。数据分析重要的不是提供 历史 和现状,而是通过分析发现手机 游戏 现状,以及对未来进行预测。一切以数据出发,用数据说话,让数据更好地指导运营服务好玩家,对玩家的行为和体验不断进行分析和调整,使玩家可以在虚拟世界中得到各方面的满足。要实现这个目的,需要搭建专业的数据化运营团队。此外, 游戏 数据分析与其他行业的数据分析不同的是, 游戏 综合了经济、广告、社交、心理等方面的内容,这就对数据分析师提出了更高的要求。

伴随着 游戏 互联网的快速发展和智能终端的普及,移动 游戏 进入了全民时代。越来越多的玩家利用碎片化时间进行 游戏 ,使得 游戏 数据呈现井喷式增长,同时也对数据存储技术、计算能力、数据分析手段提出了更高的要求。海量数据的存储是必须面对的第一个挑战,随着分布式技术的逐渐成熟,越来越多的互联网企业采用分布式的服务器集群 分布式存储的海量存储器进行数据的存储和计算,从而解决数据存储和计算能力不足的问题。如何在海量的、复杂高维的 游戏 数据中发掘出有价值的知识,将是很多公司下一步亟待解决的难题。

虽然积累了海量的玩家数据,很多公司也开发了自己的BI报表系统,但是多数停留在“看数据”阶段,还是用传统的数据分析方法对数据进行简单的加工、统计及展示,并没有进行深度挖掘发现数据背后的规律和把握未来趋势。正是在这样的大背景下, 游戏 数据分析逐渐在 游戏 行业中变得重要。公司需要从传统的粗放型运营进化到精细化运营,从而了解如何有效地获取用户、评估效果;如何激活用户、评估产品质量;如何提升收益,并挖掘潜在的高价值用户。要满足精细化运营的需求,数据化运营就应运而生了。数据化运营就是在以海量数据的存储、分析、挖掘和应用的核心技术支持的基础上,通过可量化、可细分、可预测等一系列精细化的方式来进行的。

数据化运营是飞速发展的数据存储技术、数据挖掘技术等诸多先进数据技术直接推动的结果。数据技术的飞速发展,使数据存储成本大大减低,同时提供了成熟的数据挖掘算法和工具让公司可以去尝试海量数据的分析、挖掘、提炼和应用。有了数据分析、数据挖掘的强有力支持,运营不再靠“拍脑袋”,可以真正做到运营过程自始至终都心中有数。比如,在玩家的细分推送中,数据分析师利用数据挖掘手段对玩家进行分群,运营根据不同的用户群制定差异化策略,数据分析师再根据推送效果进行评估。

完整课程可前往UWA学堂《R语言 游戏 数据分析与挖掘》阅读。

https://edu.uwa4d.com/course-intro/0/383

1、 游戏 数据分析师

2、 游戏 产品运营人员

3、产品数据挖掘

探索式分析,主要是运用一些分析方法从大量的数据中发现未知且有价值信息的过程。对于初步探索性分析而言,数据可视化是一个非常便捷、快速、有效的方法,你可以使用作图、制表等方法来发现数据的分布特征,然后可以使用一些统计分析方法更深入地发现数据背后的信息。常用的探索性分析方法包括RFM分析、聚类分析、因子分析、对应分析等。

应用背景:

在产品迭代过程中,通常需要根据用户的属性进行归类,也就是通过分析数据,对用户进行归类,以便于在推送及转化过程中获得更大的收益。

分析方法:

RFM分析(Recency,Frequency,Monetary)

分析工具:

SPSS(数据分析的重量级应用,与SAS二选一)

一.RFM基础知识

所谓探索性分析,主要是运用一些分析方法从大量的数据中发现未知且具有价值信息的过程。

常用的探索性分析方法包括:RFM分析、聚类分析、因子分析、对应分析等。

RFM的含义:

R(Recency):客户最近一次交易时间的间隔。 R值越大,表示客户交易发生的日期越久,反之则表示客户交易发生的日期越近。

F(Frequency):客户在最近一段时间内交易的次数。 F值越大,表示客户交易越频繁,反之则表示客户交易不够活跃。

M(Monetary):客户在最近一段时间内交易的金额。 M值越大,表示客户价值越高,反之则表示客户价值越低。

RFM分析就是根据客户活跃程度和交易金额的贡献,进行客户价值细分的一种方法。

RS:基于最近一次交易日期计算的得分,距离当前日期越近,得分越高。例如5分制。

FS:基于交易频率计算的得分,交易频率越高,得分越高。如5分制。

MS:基于交易金额计算的得分,交易金额越高,得分越高。如5分制。

RFM总分值: RFM=RS*100+FS*10+MS*1

RFM分析的主要作用:

识别优质客户。可以指定个性化的沟通和营销服务,为更多的营销决策提供有力支持。

能够衡量客户价值和客户利润创收能力。

RFM的假设前提:

假设交易的可能性:

最近交易过的客户 >最近没有交易过的

交易频率高的客户 >交易频率低的

交易金额大的客户 >交易金额小的

二.分析实践

RFM接受的数据格式有两种:

交易数据:每次交易占用一行,关键变量是客户ID、交易时间、交易金额。

客户数据:每次交易占用一行,关键变量是客户ID、交易总金额、最近交易日期、交易总次数。

我们通常采用交易数据的格式进行分析。因为交易数据可以整理成客户数据,而客户数据无法还原成交易数据。即用交易数据的字段可以得到客户数据的字段,反之不行。

具体是“交易数据”还是“客户数据”根据数据源文件的格式而定。

变量:选择各个变量。

分箱化:评分的总分是多少。

保存:生成哪些新的变量,可以自定义名称。

输出:可以全部勾选,为了能全面的解读RFM分析结果。

确定后,生成了四个新的变量:

崭新-得分:最后一次交易的时间间隔得分;

频率-得分:交易总次数得分;

消费金额-得分:交易总金额得分;

RFM得分:RFM得分

三.结果解读(最重要的环节)

该图主要用来查看每个RFM汇总得分的客户数量分布是否均匀。

我们期望均匀的分布,若不均分,则应该重新考虑RFM的适用性或尝试另一种分箱方法(减少分箱数目或随机分配绑定值)。

“RFM热图”是交易金额均值在RS和FS绘制的矩阵图上的图形化表示, 用颜色深浅表示交易金额均值的大小,颜色越深,表示相应矩阵块内的客户交易金额均值越高。

如本例随着RS和FS的分值增大,颜色越来越深,说明客户最近一次交易时间越近、交易次数越多,其平均交易金额越高。

该图是最后一次交易时间、交易总次数、交易总金额之间的散点图。

通过散点图可以清晰直观的看到三个分析指标两两之间的关系,便于指标相关性评估。

本例中,交易总次数和交易总金额存在较为明显的线性关系,而最后一次交易时间和另外两个分析指标之间的相关性较弱。

四.RFM分析应用

为客户分组,即将三个指标分别分为“高”和“低”两种,高于均值的为“高”,低于均值的为“低”。

因此有三件事要做:

计算出各个指标得分的平均值;

将各个变量高于平均分的定义为“高”,低于平均分的定义为“低”;

根据三个变量“高”“低”的组合来定义客户类型; 如“高”“高”“高”为高价值客户。

第一步,先计算各个指标的平均值。

一定要勾选平均值,否则输出结果中没有“平均值”。

现在我们得到了各个变量的平均分:3.33,2.99,3.01。

第二步,将各个变量高于平均分值的定义为“高”,否则为“低”。

按照1-2-3-4-5的步骤设置高于平均值的为“2”,也可以设置为“高”

同理去设置FS和MS。

设置后结果如下:

可以在变量设置里设置标签,1代表“低”,2代表“高”,也可以在“重新编码到不同变量”里面设置时就直接定义为“高低”,而不是“1和2”。

第三步:通过各个变量的高低组合,确定客户类型。

第三区域:可以是公式,也可以是具体的数字,其实这里就是输出结果。

第四区域:表示满足的条件。

同理在“变量设置”里对标签就行设置就行。

最终分析结果如下:

通过RFM方法,我们根据用户的属性数据分析,对用户进行了归类。在推送、转化等很多过程中,可以更加精准化,不至于出现用户反感的情景,更重要的是,对产品转化等商业价值也有很大的帮助。