中国经典芭蕾舞剧《红色娘子军》 舞剧,芭蕾舞剧,红军,经典
孟京辉系列作品之《恋爱的犀牛》 话剧,爱情
金士杰、刘若瑀主演《演员实验教室》 话剧,金士杰,时间,寻找自我
(2)有指定的用户群体的观演记录,观演记录之间用逗号隔开,excel存取
一位观众一条观演数据,如:
中国经典芭蕾舞剧《红色娘子军》,孟京辉系列作品之《恋爱的犀牛》,金士杰、刘若瑀主演《演员实验教室》
接下来:
步骤一:读取文件
customers = pd.read_excel(r'C:\Users\JiangMeng\Desktop\用户观演.xlsx') #打开用户观演统计表
labels = pd.read_excel(r'C:\Users\JiangMeng\Desktop\2019项目标签.xlsx',sep = ',') #打开项目标签表
customer_show = customers['项目'].str.split(',',expand=True) #统计观众看的项目,以逗号分隔
步骤二:统计观众看过的项目,存入customerShows
customerShows = pd.Series()
for i_show in range(customer_show.shape[1]):
s_show = pd.Series(customer_show[i_show])
customerShows = customerShows.append(s_show)
数据处理:
customerShows = customerShows.dropna(axis=0, how='any') #去空值行
search_num = customerShows.count() #统计到的项目数量
customerShows = customerShows.reset_index(drop=True) #重置索引
步骤三:合并指定项目的标签
search_labels = pd.DataFrame()
for i_search_num in range(search_num):
i_search_label = (labels.query("项目名称=="+"'"+customerShows[i_search_num]+"'") ['label']).str.split(',',expand=True)
search_labels = search_labels.append(i_search_label)
打印search_labels 如下:
步骤四:#计算标签
merge_labels = pd.Series()
for i_label in range(search_labels.shape[1]):
name_label = pd.Series(search_labels[i_label]).value_counts()
merge_labels = merge_labels.add(name_label, fill_value = 0)
print(merge_labels.sort_values(ascending=False)) # 统计这部分用户的标签
打印如下:
仅作为模板展示,选择的数量较少,可以看到这部分用户的观演记录中,更喜欢看的是经典话剧类的项目,更倾向于带有影视元素题材的项目。
用户标签和用户画像是爬虫。根据相关公开资料显示,用户标签和用户画像是用来勾画用户(用户背景、特征、性格标签、行为场景等)和联系用户需求与产品设计的,一般需要用python语言的爬虫功能来做。用户标签和用户画像是根据用户在互联网留下的种种数据,主动或被动地收集,然后尽可能全面细致地抽出一个用户的信息全貌,从而帮助解决如何把数据转化为商业价值的问题。用户画像是通过对用户各类特征进行标识,通过标识给用户贴上各类标签,再通过标签把用户分为不同的群体,以便对不同的群体分别进行产品/运营运作。
比如拉面说在微信进行推广,因为拉面是即食食品,更加吸引年轻人,且更加偏向城市里忙碌的社畜,那么拉面说的用户画像就为年轻化(年龄)、上班族(职业)。
用户画像的标签有4种:
如:姓名、性别、年龄、星座、教育、身高、收入、职业等。
如:婚姻、有无女孩、有无男孩、家里是否有老人等。
基本行为 :注册时间、来源渠道、最近一次活跃的时间、最近一次支付的时间。
业务行为 :是否买过特惠商品、是否曾获优秀学员,这些标识都会对产品的后期运营有所帮助。
这一类跟其他类不太一样,就像第三类中的业务行为,它是通过业务行为产生出来的特征,而业务相关呢,它是积累了其他的业务不会去记录的一些数据,比如运动健身类的产品。
它会涉及到:胖瘦高矮、体脂率、BMI、在练胸或者练臀、日均10000步、收藏了多少份健身计划等等。
1、注册信息
一开始注册叫你填多少岁、地域的基础信息
and选择你喜欢的领域、兴趣,你在app搜索关键词等等
2、通过用户自己的已有特征推导
比如:从买过的东西去推,比如说买过女士衣服+化妆品。常用IP进行推导地域等。
3、通过用户身边的人推断
通过距离:基于某些属性,周围的人都具备,用户大概率也具备。
通过行为:通过协同过滤,找到行为相似的目标用户。
例:EXCEL的数据透视图
当你需要看哪个属性的时候,图跟随你的选择变化,如下动图:
此时你可以清晰地看到省份、城市的数据情况,或者可以选择下次在进行广告投放的时候更加偏重于这些区域。
由于这个功能会比较简单,下次和切片器一起写。
还有用tableau的仪表盘,或者是python的pychart包,后面有时间会教怎么用。