推荐系统-内容推荐

用户画像

一个推荐系统大概有三步：认识每一个用户->给他推荐他感兴趣的东西->各种指标上升。

用户画像(User Profile)大体分为给机器看的和给人看的，其中给人看的一般是运营，产品等用的。我们这里只关注给机器看的。我们知道要对用户和物品进行计算，是需要对数据进行计算的，因此我们首先就要将用户和物品都向量化，用户向量化后的结果，就是User Profile，俗称“用户画像”，所以，用户画像不是推荐系统的目的，而是在构建推荐系统过程中产生的一个关键环节的副产品。

用户画像的维度，在制定用户画像维度的时候，需要对每一个维度都是可理解的，而维度的数量是自想的（假如是根据用户的阅读历史挖掘阅读兴趣标签，那么我们无法提前知道用户有哪些标签，也就不能确定用户画像有哪些维度），有哪些维度也是自想的（维度越多越精细，个性化推荐就越强，但带来的计算代价也就越大，这里注意的是用户画像是向量化结果，而不是标签化。标签化知识向量化的一种）。

用户画像的构建，查户口，对数据（积累历史数据，做统计工作，就是历史行为数据中去挖掘出标签，然后在标签维度中做数据统计，用统计结果作为量化结果），黑盒子（embedding）

文本信息来构建画像

首先我们要知道物品这一端也有大量文本信息，可以用来构建物品画像（通常有物品的标题，描述，物品本身的内容，物品的其他基本属性的文本）

对结构化文本采用的方法有关键词提取、实体识别、内容分类、主题模型、embedding、聚类。
在这里插入图片描述

上面是典型基于内容推荐的框架图

内容这一端：内容源经过内容分析，得到结构化的内容库和内容模型，也就是物品画像。用户这一端：用户看过推荐列表后，会产生用户行为数据，结合物品画像，经过用户分析得到用户画像。以后对于那些没有给用户推荐过的新内容，经过相同的内容分析过程后就可以经过推荐算法匹配，计算得到新的推荐列表给用户。如此周而复始，永不停息。

内容源：作者写的，网站爬取的…

内容分析和用户分析：构建物品和用户画像…

内容推荐算法：对于基于内容的推荐系统，最简单的推荐算法当然是计算相似性即可，用户的画像内容就表示为稀疏的向量，同时内容端也有对应的稀疏向量，两者之间计算余弦相似度，根据相似度对推荐物品排序。

量，两者之间计算余弦相似度，根据相似度对推荐物品排序。