观演用户小群体画像分析(python pandas)

Python027

观演用户小群体画像分析(python pandas),第1张

已经完成的步骤:

(1)针对每个项目打上了标签,如下(用excel 存取):

中国经典芭蕾舞剧《红色娘子军》 舞剧,芭蕾舞剧,红军,经典

孟京辉系列作品之《恋爱的犀牛》 话剧,爱情

金士杰、刘若瑀主演《演员实验教室》 话剧,金士杰,时间,寻找自我

(2)有指定的用户群体的观演记录,观演记录之间用逗号隔开,excel存取

一位观众一条观演数据,如:

中国经典芭蕾舞剧《红色娘子军》,孟京辉系列作品之《恋爱的犀牛》,金士杰、刘若瑀主演《演员实验教室》

接下来:

步骤一:读取文件

customers = pd.read_excel(r'C:\Users\JiangMeng\Desktop\用户观演.xlsx') #打开用户观演统计表

labels = pd.read_excel(r'C:\Users\JiangMeng\Desktop\2019项目标签.xlsx',sep = ',') #打开项目标签表

customer_show = customers['项目'].str.split(',',expand=True) #统计观众看的项目,以逗号分隔

步骤二:统计观众看过的项目,存入customerShows

customerShows = pd.Series()

for i_show in range(customer_show.shape[1]):

    s_show = pd.Series(customer_show[i_show])

    customerShows = customerShows.append(s_show)

数据处理:

customerShows = customerShows.dropna(axis=0, how='any') #去空值行

search_num = customerShows.count() #统计到的项目数量

customerShows = customerShows.reset_index(drop=True) #重置索引

步骤三:合并指定项目的标签

search_labels = pd.DataFrame()

for i_search_num in range(search_num):

     i_search_label = (labels.query("项目名称=="+"'"+customerShows[i_search_num]+"'")                                     ['label']).str.split(',',expand=True)

    search_labels = search_labels.append(i_search_label)

打印search_labels 如下:

步骤四:#计算标签

merge_labels = pd.Series()

for i_label in range(search_labels.shape[1]):

   name_label = pd.Series(search_labels[i_label]).value_counts()

    merge_labels = merge_labels.add(name_label, fill_value = 0)

print(merge_labels.sort_values(ascending=False)) # 统计这部分用户的标签

打印如下:

仅作为模板展示,选择的数量较少,可以看到这部分用户的观演记录中,更喜欢看的是经典话剧类的项目,更倾向于带有影视元素题材的项目。

用户标签和用户画像是爬虫。根据相关公开资料显示,用户标签和用户画像是用来勾画用户(用户背景、特征、性格标签、行为场景等)和联系用户需求与产品设计的,一般需要用python语言的爬虫功能来做。用户标签和用户画像是根据用户在互联网留下的种种数据,主动或被动地收集,然后尽可能全面细致地抽出一个用户的信息全貌,从而帮助解决如何把数据转化为商业价值的问题。

用户画像是通过对用户各类特征进行标识,通过标识给用户贴上各类标签,再通过标签把用户分为不同的群体,以便对不同的群体分别进行产品/运营运作。

比如拉面说在微信进行推广,因为拉面是即食食品,更加吸引年轻人,且更加偏向城市里忙碌的社畜,那么拉面说的用户画像就为年轻化(年龄)、上班族(职业)。

用户画像的标签有4种:

如:姓名、性别、年龄、星座、教育、身高、收入、职业等。

如:婚姻、有无女孩、有无男孩、家里是否有老人等。

基本行为 :注册时间、来源渠道、最近一次活跃的时间、最近一次支付的时间。

业务行为 :是否买过特惠商品、是否曾获优秀学员,这些标识都会对产品的后期运营有所帮助。

这一类跟其他类不太一样,就像第三类中的业务行为,它是通过业务行为产生出来的特征,而业务相关呢,它是积累了其他的业务不会去记录的一些数据,比如运动健身类的产品。

它会涉及到:胖瘦高矮、体脂率、BMI、在练胸或者练臀、日均10000步、收藏了多少份健身计划等等。

1、注册信息

一开始注册叫你填多少岁、地域的基础信息

and选择你喜欢的领域、兴趣,你在app搜索关键词等等

2、通过用户自己的已有特征推导

比如:从买过的东西去推,比如说买过女士衣服+化妆品。常用IP进行推导地域等。

3、通过用户身边的人推断

通过距离:基于某些属性,周围的人都具备,用户大概率也具备。

通过行为:通过协同过滤,找到行为相似的目标用户。

例:EXCEL的数据透视图

当你需要看哪个属性的时候,图跟随你的选择变化,如下动图:

此时你可以清晰地看到省份、城市的数据情况,或者可以选择下次在进行广告投放的时候更加偏重于这些区域。

由于这个功能会比较简单,下次和切片器一起写。

还有用tableau的仪表盘,或者是python的pychart包,后面有时间会教怎么用。