β

基于用户协同的TAG修正算法

胡户主—《江南360》 96 阅读
本文主要对之前做的标签修正算法做一个总结。   标签(TAG)作为实体对象的一种简要描述信息被大量用在推荐系统中,主要是基于内容的推荐。标签一般由专业人员或者用户去标注,需要大量的人工。在APP市场中只能通过运营人员标注的方法,人工标注会有几个问题:1. 标错;2. 标注信息不完全;3. 冷门应用标签信息完全缺失。   本文方法主要利用用户的行为以及当前已有TAG去进一步修正TAG。   算法包括两个主要问题: 第一个问题是解决TAG准确性评估的问题: 解决这个问题的方法是利用用户的行为来确定某个TAG是否能代表APP的属性。 首先要有用户行为获取的产品形态:在APP的详情页中加入应用TAG链接,点击后会跳转到该TAG相应的APP列表页,如果没有点击后的功能,则不会有用户去点击。 每天获取点击数据并统计出点击转化率,TAG点击数/APP展示数,这个转化率既可以近似代表用户认为哪个TAG代表当前APP的属性,数据会每天累计一次,累计公式为W(yesterday)0.5+W(today)0.5,累计结果需要归一化。如此便得到了TAG的准确性评估数据。 图1 产品形态   第二个问题是解决TAG修正的问题: TAG修正主要基于APP关联数据。修正后的TAG为TAG准确性权重集合,推荐补充TAG集合,原始TAG集合的综合加权结果。以下是一次修正处理的数据流图,数据每天会迭代更新一次。从图中可以看出修正过程中主要获取到三种数据,然后做综合加权处理。     图2 TAG修正系统的数据流图     以下主要描述三种数据的获取方法以及最终的TAG修正方法:   1. 获取TAG准确性权重集合   此种数据的获取方法在上面第一种问题中已经讲解。       2. 获取原始TAG集合   此TAG集合通过人工标注,是最原始的TAG集合;运营人员平时会修正一些TAG(赞,辛苦的同事们),但人的力量终究有其偏差和局限性,且是有限的,所以还是通过机器+人工的方式来修正TAG,提升工作效率。     3. 获取推荐补充TAG集合   先获取当前应用的top相似列表,再根据此列表中应用的TAG集合计算出推荐补充TAG集合。   a. 获取当前应用的top相似列表   这个数据在相关推荐中有几种不同数据源计算出来的数据,但是不同数据来源计算出来的相似性不一样。   以360新闻应用为例列出几种相似性结果数据对比:   基于浏览数据: 基于下载数据: 基于安装数据: 基于反馈数据: ...

Continue reading ‘基于用户协同的TAG修正算法’ »

作者:胡户主—《江南360》
原文地址:基于用户协同的TAG修正算法, 感谢原作者分享。

发表评论