1.什么是推荐系统的冷启动?
新用户、新内容对推荐系统来说都是没有过往信息积累的、陌生的,需要通过一定的曝光量和互动量来收集基础数据。这个从0到1积累基础数据的过程就是冷启动。其效果的好坏直接关系的整个产品新用户的留存于与转化,而用户留存与转化的提升是做冷启动优化的动力来源。
2.冷启动分类
- 用户冷启动:主要解决如何对新用户做个性化推荐。当用户到来时,没有任何行为数据,无法根据其历史行为预测其兴趣,从而无法借此做个性化推荐。
- 物品冷起动:主要解决如何将新的物品推荐给可能对他感兴趣的用户。
- 系统冷启动:主要解决如何在一个新的网站上(没有用户,没有用户行为,只有一些物品信息)设计个性化推荐系统,从而在网站发布时就让用户体验到个性化推荐服务。
3.那些方面进行推荐系统的冷启动处理
- 强规则: 产品侧做区分对待。固定展示位展示新物品。一定量流量展示新物品。
- 策略:排序队列做区分对待。减少新物品的过滤等级。召回和排序固定百分比新物品
- 模型。倾向新物品的算法。针对新物品(用户)的Embedding表示。独立的新物品排序模型
4.冷启动的判断
- 新物品的判断:曝光、点击或者转化阈值。时间阈值
- 新用户的判断:浏览或者曝光次数。活跃天数间隔。
- 业务特点确定:实时过程或者非实时?、旧的是否回退新的?、与其他业务是否冲突?
5.用户冷启动
1.非个性化推荐(与具体用户无关)
-
推送整体热门
-
推送不同时间段热门
-
推送各类排行榜
2.尽可能收集用户信息 -
新用户信息收集启动项:人口统计学信息:年龄、性别、学习。;人口兴趣描述启动项:音乐风格等。
-
站外数据:第三方登录权限:微信等。;购买数据公司数据:友盟等。
3.利用已有用户信息进行粗粒度推荐:
- 利用专家经验和基础属性信息做更细粒度排行榜,热度榜,基于性别、设备信息、网络信息、位置等用户和上下文信息相关的榜单。
- 利用算法和基础属性做更细粒度榜单:训练决策树模型构建叶子结点对应的冷启动榜单
- 利用外部数据寻找相似用户做推荐:微信好友、拼多多好友等。
- 少样本学习算法
6.物品冷启动
1.基于规则:
固定展示位上新物品随机推荐
利用物品内容信息进行不同粒度匹配(图书分类)
2.物品冷起动不敏感的算法:
协同过滤User-CF
look-like相似人群扩展
利用物品信息获取相似物品进行模型推荐
3.探索与利用策略
7.(物品冷启动)探索与利用
1.探索:
寻找用户可能喜欢的新物品,或者说可能对这个新物品感兴趣的用户,探索用户可能感兴趣的信息
2.利用:
充分利用已有信息,推荐最大价值或最感兴趣的物品。
3.探索与利用典型算法
- 简单贪心:e-Greedy
- 汤普森采样:Thompson sampling
- 置信上界:UCB
- 线性置信上界:Lin-UCB