用户行为分析及实战项目python

Python012

用户行为分析及实战项目python,第1张

用户行为分析是对用户在产品上产生的行为以及行为背后数据进行一系列分析,通过构建行为模型和用户画像,支持产品决策,精细化运营,实现增长。

对于产品而言,用户行为分析可以验证产品可行性,找到产品缺陷,以便需求迭代;

对于设计而言,用户行为分析可以帮助提高产品体验,发现交互不足,以便设计优化;

对于运营而言,用户行为分析可以实现精准营销,挖掘使用场景分析用户数据,以便运营决策调整;

一般包括设备id,时间,行为类型,渠道等

(1)粘性指标-表现用户-提高认知度A激活:关注周期内持续访问,比如:留存率、流失率、新用户占比、用户转化率等;

(2)活跃指标-表现行为-诱导参与留存:用户参与度,比如:活跃、新增、流失、平均访问时长、使用频率等;

(3)产出指标-分析出-培养忠诚度R变现:用户价值输出,比如:消费金额、页面UV、消费频次等;

(1)行为事件分析:根据关键指标对用户行为进行分析,比如:注册、登录、搜索流量商品、加入购物车、提交订单、付款、评价一系列属于电商完整事件。在根据用户细分维度,用户渠道、注册时间、订单频率、新老客等维度找到规律,制定方案。

(2)用户留存分析:分析用户产品参与度的指标,一般遵循40-20-10法则,即日留存大于40%周留存大于20%月留存大于10%。

(3)漏斗分析:描述用户使用产品时关键环节转化率情况,能够验证设计是否合理。分析用户在哪个环节流失,为什么流失,如何降低流失提高转化率。

(4)用户路径分析:用户在使用产品过程中的访问路径。首先要梳理用户行为轨迹,认知-熟悉-试用-使用-忠诚。轨迹背后反应的是用户特征,这些特征对产品运营有重要参考价值。当发现偏差时,可能就是产品的缺陷。

(5)福格模型:用来研究用户行为原因的模型。B行动=M动机A能力T触发器。以分享为例,动机-该分享对分享者和被分享者有什么好处,能力-分享路径实现是否有难度,触发器-分享按钮是否醒目,用户是否意识到这个分享带来的好处。

已知数据集中包括用户ID、商品ID、商品类目ID、行为类型和时间戳,其中行为包括点击、购买、加购、喜欢。

(1)用户活跃指标

(2)用户粘性指标

(3)用户行为分析

能明显看出12月2日周六的PV突增,但是11月25日和26日同为周末,PV量级却没有那么大,需要继续查看数据,有可能是异常情况。

与PV情况相似,但是UV增加不一定就是PV增加的原因,还有可能是某些用户访问次数增加导致PV增加或统计问题,因此需要看一下人均访问次数确定。

人均访问次数接近,由此可知PV的增加就是新访客带来的。由于双12属于年底大促,因此12月2日访问量突增的原因可能与商家开始进行促销和宣传有关系。

人均消费频次2.8次

可以看出主要活跃集中在10-23点,从晚上7时开始至10时用户访问处于最佳活跃状态,21时是一天中活跃最高点。

收藏、加入购物车、购买与pv的趋势相似。

10时附近付费率最高,因此应该保持10时的运营活动加大21时的活动力度。

由图可知,前7个商品类目属于高销量,与第8个类目销量差异较大。

商品类目为‘4159072’付费率最高

进一步探索与它同销量的’1320293‘付费率却极低,发现1320293的访问量很高但是购买平淡无奇,而4159072虽然访问量低但是每十个人访问就有一人付费。可以 深入研究一下它是否有什么特殊性或者高效运营手段,详情页如何展示介绍商品,文案如何设计等,找出规律应用到其他商品上面,提高付费率 或者 从渠道的角度分析是否前者渠道目标用户不如后者精准

有过销量的类目共3666个,以销量由大到小排序占总销量的80%为止,有628个商品类目。因此可以说着628个商品类目占总销量的80%,奇妙的28定律!

前面平均消费频次为2.8,销量top20中,‘2885642’‘4756105’‘4159072’这三个类目消费频次与销量差距悬殊,可以根据商品性质分析如何提高用户消费频次,同时可以参考其他消费频次较高商品如‘982926’的运营手段等。

普遍说明每发生1.4次收藏就有1次购买行为。

可以分析出几个商品每收藏4-5次才会购买一次,考虑是否对这类商品进行个性化召回,比如定向推送询问用户收藏的该商品最近有优惠券是否前来购买等。

与区分商品类目的分析相似,这里指针对有异常商品类目下的商品名称进行分析

从商品ID维度分析以商品类目ID=’1320293‘和’4159072‘两者销量相似但是付费率相差悬殊为例。

说明商品类目下有与其大量商品不如小而精,精准定位用户需求。

能辅助证明上面的观点,如果在某类目下有几个商品吸引用购买,那么该类目的销量就会大增。

使用sql较容易实现

可以看出整体次日留存率较高,越接近12月份留存率逐步上升,与临近双十二商家宣传促销有关。

用户复购率也在逐渐提高。

从浏览到加入购物车的转换率仅6.2%,有空间提升。

10.留存率能够达到70%以上,复购率达到20%以上,在临近双12明显提升。

11.通过观察漏斗可以看出,加入购物车的转化率仅6.2%还有很大的空间提升。

由于此次数据集没有提高销售金额,因此无法进行ARPU方面数据分析。这里补充下关于消费金额的知识点:

LTV是平均每个用户带来的价值,可以决策为每个用户付出多少成本。一般来说LTV>CAC认为公司发展空间大,LTV<CAC认为公司变现能力弱,LTV/CAC=3认为公司健康,大于3说明市场拓展较为保守;小于3说明转化效率底下。

LTV=LT*ARPU

LT指用户平均生命周期,留存率之和。

举例:如果知道用户一个月内的留存率,可以使用excel做出对数趋势线,看下r方。根据对数公式计算出留存率之和,也就是LT。

注意:ARPU与LT要有单位之间的换算。

CAC计算要考虑进去成本,包括营销费用、推广费用、以及人力成本。CAC是一个平均值,可能在各渠道下成本不一,可以区分渠道分别计算。

即花费的用户获取成本能在多长时间内回本。PBP越短资金周转越快。

参考:

https://blog.csdn.net/u012164509/article/details/103049740 arpu和aprru

https://baijiahao.baidu.com/s?id=1662108604585143388&wfr=spider&for=pc LTV

此部分内容来自对《Python数据分析与数据化运营》4.7节 路径、漏斗、归因和热力图分析

路径分析、漏斗分析、归因分析和热力图分析原本是网站数据分析的常用分析方法,但随着认知计算、机器学习、深度学习等方法的应用,原本很难衡量的线下用户行为正在被识别、分析、关联、打通,使得这些方法也可以应用到线下客户行为和转化分析。

漏斗分析

根据漏斗的封闭性可分为封闭型漏斗和开放型漏斗。

封闭型漏斗指的是漏斗从第一环节开始到最后的环节,数据从上一环节开始依次“漏下”来,不存在其他进入途径。

开放型漏斗指的是漏斗的各个环节都有可能存在其他入口,整个漏斗不封闭。

漏斗分析的典型应用场景是分析站内流程,如注册流程、购物车流程等;除了可以做针对多页面的流程分析外,还可以做单页面的多个步骤分析,如表单分析、注册分析等。

路径分析

路径分析也是网站分析的基本方法,借助于网站数据的可追踪性和可监测特征,所有用户行为都处于可分析的状态。路径分析不仅可以基于页面产生,还可以基于目标路径、时间路径等数据主体产生。

页面路径常用于分析不同页面引流和前后路径关系,如用户从活动页落地后如何分流、典型客户的路径特征、客户网站访问动线、页面广告资源挖掘、站内多页面流程设计优化等。典型应用包括:

通过页面间的路径数据图可以看到用户从某个页面开始到其他页面的流量分布;同样,也可以分析从某个页面开始,其之前的流量都来自于哪些页面或路径。但用户真的是按照这种方式浏览页面的吗?很多时候在路径结果数据数据中会出现这样的问题:页面下一级路径中出现了该页面上没有的点击链接,例如链接C只存在于B页面上,但发现很多用户从A页面进入了C页面。

页面路径的设别标志不是以页面是否包含跳转链接为判定依据的,而是根据不同页面的时间戳确定的。这种判定方法准确讲其实是时间路径,而非页面路径。

除了将路径应用于分析页面访问行为,还可以用于站外广告渠道路径分析、用户关键字搜索路径分析等。

在做多渠道路径分析时,经常会发现用户真正通过多个渠道交叉进入网站并完成转换的路径占比很小,似乎数据显示了用户并没有那么多的跨渠道访问后完成转化的习惯。造成这种现象的因素有以下几个方面:

当用户在网站上点击时,无论页面内是否有链接,都会被网站跟踪分析工具捕获点击的位置,然后基于每个像素的点击形成页面点击热力图。但是点击热力图有时并不是基于交互元素产生,在很多空白区域也会产生大量的用户点击。

归因分析产生于线上网站数据分析主题中,主要原因是在于线上转化行为的归属模糊性。

漏斗分析和路径分析都用来衡量有关多个主体的流程性、序列型的关系,因此二者很容易混淆,但两种分析方法具有很大的差异性:

为了创造更多利润、实现数据驱动运营,某CD网站拟对18个月以来的近7万条消费数据进行分析。具体的研究思路如下:

新增['month']列,便于后续按月分析。

重新查看,此时的时间列已转换为正常格式。

由上图可知,

接下来我们用之前清洗好的字段进行数据分析。

前三个月消费订单数在10000笔左右,后续月份的平均则在2500笔。

前三个月产品购买数在20000以上,后续月份的产品购买量在6000~8000左右 。

前三个月每月的消费人数在8000-10000之间,后续月份平均消费人数在2000人不到

上述消费趋势的分析可以通过数据透视表分析(不建议数据透视表进行去重操作)

本章小结——

趋势分析:总体来看,消费总金额、消费次数、产品购买量、消费人数的趋势想似:均先上升、下跌、趋于平稳并下降。

可以看出网站的流失用户在增加,采用开源(拉新)节流(留存)的运营方式,来增加销售收入。

上一部分是按月分析,主要看趋势;本部分按用户个体分析,来看消费能力。

按用户消费金额进行降序排列,由图可知,共计约25000个用户:

启发,只要维护好这5000个用户(占比20%)就可以把业绩KPI完成70%,如果能把5000个用户运营的更好就可以占比更高。

通过以上基本数据描述分析可以清楚该网站整体的消费趋势和用户消费能力,现在进一步挖掘用户消费行为数据,通过RFM模型、生命周期等方法对用户进行分层,为后续运营管理提供依据。

首购可以进一步依渠道划分,衡量不同渠道的差异性,从而量化渠道能力,为后期渠道优化提供依据。

用户第一次购买分布,集中在前三个月(1997年1-3月);其中,在2月11日至2月25日有一次剧烈波动

由图可知,1997年1-4月新用户数量由90%跌落至80%以下;之后几个月的新用户量保持在80~82%区间。

RFM是一个经典的用户分类模型,模型利用通用交易环节中最核心的三个维度——最近消费(Recency)、消费频率(Frequency)、消费金额(Monetary)细分用户群体,从而分析不同群体的用户价值,最终达到精准营销。

RFM从3个维度、分2个等级(均值)得到8类用户分层。

通过RFM模型,把用户分为8个类别,分别给用户打标签、将客户分为重要价值、重要保持、重要挽留、重要发展、一般价值、一般保持、一般保留、一般发展8类客户。

从RFM分层可知,本网站的大部分用户为一般挽留客户(可适当放弃这部分低价值客户、也可进一步提高活跃度)、重要保持客户(企业优质的客户群,采用会员制运营)。具体运营策略依据参照如下:

为了避免划分用户群体过多(RFM从3个维度、分2个等级得到8类用户分层的数据立方),可能导致针对性的营销成本负担上升;下面将通过聚类方法,基于RFM模型划分成4类用户,更快实现后期用户管理。

显然,归一化预处理后,当n=2时,轮廓系数取最大值0.79,仅从模型聚类效果来讲分2类合适;而标准正态化预处理后显示,分4类的轮廓系数最大,达0.6964(但2-7类的轮廓系数整理差别波动不大)

参考漏斗模型,针对每个用户,按18个月内的每个月对用户情况进行分类,即新用户、活跃用户、回流用户、流失用户。

通过下面的数据透视表即可得到每个用户每个月的购买情况,从而进行转化分析。

若本月无消费(即为0)

若本月有消费(即为1)

由上表可知,每月的用户消费状态变化