Bootstrap

【数据挖掘】二、基于BERTopic的主题建模:基于BERTopic的用户兴趣标签生成(史诗级详细教程)

一、项目背景说明

1 说明

        本项目旨在通过对中文文本数据进行深度分析和聚类,通过BERTopic模型进行主题建模,提取出有意义的主题,并生成每个主题的关键词汇及其重要性评分,得到最终的用户兴趣标签主题。

        此次实验任务中的数据集来源于网络,该数据集是英雄联盟比赛直播评论数据集,数据:英雄联盟数据集和停用词表

2 主要流程介绍

具体步骤如下:

  1. 数据准备

    • 从 CSV 文件 extopic.csv 中读取数据,并移除不必要的列。
    • 对文本数据进行清洗和预处理,包括句子分割、去除停用词、分词等。
  2. 文本嵌入

    • 使用 SentenceTransformer 库中的预训练模型 paraphrase-multilingual-MiniLM-L12-v2 将文本数据转换为高维向量表示(嵌入)。
    • 将生成的嵌入向量保存到本地,以便后续重复使用。
  3. 降维

    • 使用 UMAP 算法将高维嵌入向量降维至 10 维,以便进行聚类分析。
  4. 聚类

    • 使用 HDBSCAN 算法对降维后的嵌入向量进行聚类,生成多个主题。
    • 可视化聚类结果,使用二维散点图展示不同主题的分布情况。
  5. 主题分析

    • 计算每个主题的 TF-IDF 值,提取每个主题的前 20 个关键词及其重要性评分。
    • 生成包含主题编号、关键词及其评分的数据框,并按重要性评分进行排序。
  6. 主题合并

    • 通过计算主题之间的余弦相似度,逐步合并相似度最高的主题,最终生成最具有代表性的几个主题。
    • 提取并展示最好的四个主题及其关键词。

3 项目目标

  • 数据清洗与预处理:确保文本数据的质量,为后续的嵌入生成和聚类分析打下基础。
  • 文本嵌入与降维:将文本数据转换为高维向量表示,并通过降维算法将其简化,便于聚类分析。
  • 主题聚类与分析:通过聚类算法生成多个主题,并提取每个主题的关键词汇及其重要性评分,帮助理解文本数据的主题结构。
  • 主题优化与展示:通过计算主题之间的相似度,合并相似度高的主题,最终生成最具有代表性的几个主题,并进行可视化展示。

4 项目意义

        本项目的成果可以帮助企业和研究机构更好地理解大量文本数据的内容和结构,从而为决策提供有力支持。具体应用包括但不限于:

  • 市场分析:通过分析客户评论和反馈,提取出主要关注点和热点问题。
  • 内容推荐:根据用户的历史行为和兴趣,推荐相关的内容和产品。
  • 舆情监控:实时监测社交媒体上的热点话题和公众情绪变化。
  • 知识管理:帮助企业整理和管理内部知识库,提高信息检索的效率。

        通过本项目的实施,可以显著提升文本数据分析的效率和准确性,为企业和研究机构带来实际的价值。

5 英雄联盟直播视频评论数据集的用户主题兴趣建模目的

        在英雄联盟(League of Legends, LoL)直播视频评论数据集中,进行用户主题兴趣建模的主要目的是为了更好地理解和分析观众的行为、偏好和互动模式。通过聚类和主题建模技术,可以从大量的评论数据中提取出有意义的主题,并为每个主题生成清晰的标签和关键词。这不仅有助于平台优化内容推荐,还能为内容创作者提供有价值的反馈,帮助他们改进直播内容并增强与观众的互动。

以下是具体的建模目的和应用场景:

5.1. 识别热门话题与趋势

  • 目的:发现观众在观看直播时最关注的话题和讨论热点。这些话题可能包括游戏策略、英雄选择、比赛结果、主播的表现等。
  • 应用:平台可以根据这些热门话题调整推荐算法,优先展示与当前流行话题相关的直播或视频。同时,内容创作者可以根据这些趋势调整直播内容,增加观众的参与度和互动率。

5.2. 个性化推荐

  • 目的:根据用户的评论历史和兴趣主题,为每个用户生成个性化的推荐内容。例如,如果某个用户经常讨论“打野技巧”或“上单英雄”,系统可以向他们推荐相关的直播、教程或比赛回放。
  • 应用:通过精准的内容推荐,平台可以提高用户的留存率和活跃度,减少用户的流失。此外,个性化推荐还可以帮助新用户更快地找到感兴趣的内容,提升用户体验。

5.3. 用户分群与社区建设

  • 目的:将观众分为不同的兴趣群体,识别出具有相似兴趣的用户群体。例如,有些观众可能更关注竞技性比赛(如职业赛事),而另一些观众可能更喜欢娱乐性直播(如搞笑片段或主播互动)。
  • 应用:平台可以根据这些兴趣群体创建专门的社区或论坛,促进用户之间的交流和互动。内容创作者也可以针对不同群体定制直播内容,满足特定观众的需求。

5.4. 主播表现评估与反馈

  • 目的:通过分析观众的评论,评估主播的表现并提供反馈。例如,观众可能会对主播的游戏水平、解说风格、互动方式等方面发表意见。
  • 应用:内容创作者可以根据这些反馈不断改进自己的直播风格和内容,提升观众的满意度。平台也可以利用这些数据为优秀的主播提供更多曝光机会,激励他们持续产出高质量内容。

5.5. 情感分析与情绪监控

  • 目的:通过对评论的情感分析,了解观众的情绪变化,识别出观众对某些事件或内容的正面或负面反应。例如,观众可能会对某个英雄的改动、比赛中的关键时刻或主播的失误发表强烈的意见。
  • 应用:平台可以通过情感分析监控直播过程中的观众情绪,及时调整推荐内容或采取措施应对负面情绪。内容创作者也可以根据观众的情感反馈调整直播节奏,避免引发不必要的争议。

5.6. 异常检测与问题识别

  • 目的:识别出那些不符合主流讨论的异常评论,可能是观众对某些问题的不满或投诉。例如,观众可能会抱怨直播卡顿、广告过多、主播违规行为等。
  • 应用:平台可以通过异常检测及时发现这些问题,并采取相应的措施进行解决。这有助于提升用户的满意度,减少负面评价的影响。

5.7. 内容分类与管理

  • 目的:自动分类直播视频及其评论,帮助平台更好地管理和组织内容。例如,将直播视频分为不同的类别(如职业比赛、娱乐直播、教学视频等),并将相关评论归类到相应的主题下。
  • 应用:这不仅可以提高内容检索的效率,还可以帮助平台更好地推荐相关内容,提升用户体验。同时,内容创作者也可以根据分类结果优化直播内容,确保其符合观众的期望。

5.8. 市场细分与营销策略

  • 目的:通过聚类和主题建模,识别出不同类型的观众群体,并为每个群体制定针对性的营销策略。例如,针对高参与度的观众群体,平台可以推出会员服务或专属活动;针对新手玩家,可以提供入门教程或优惠活动。
  • 应用:平台可以根据这些细分市场优化营销策略,提升用户的转化率和忠诚度。同时,内容创作者也可以根据观众的兴趣特点,设计更具吸引力的直播内容,吸引更多的观众。

5.9. 内容创作灵感与创新

  • 目的:通过分析观众的评论,了解他们对游戏玩法、英雄选择、战术策略等方面的见解,为内容创作者提供创作灵感。例如,观众可能会提出一些新颖的游戏玩法或英雄组合,内容创作者可以尝试将其融入直播中。
  • 应用:这不仅可以增加直播的趣味性和互动性,还可以帮助内容创作者保持创新,吸引更多观众的关注。

5.10. 社区氛围维护与管理

  • 目的:通过聚类和情感分析,识别出不良评论或有害言论,维护健康的社区氛围。例如,观众可能会发表攻击性语言、恶意刷屏或发布不当内容。
  • 应用:平台可以通过自动化工具及时删除这些不良评论,并对相关用户进行警告或封禁。这有助于营造一个积极、健康的社区环境,提升用户的体验和满意度。

总结

        在英雄联盟直播视频评论数据集中,进行用户主题兴趣建模的主要目的是为了更好地理解观众的行为、偏好和互动模式。通过聚类和主题建模技术,可以从大量的评论数据中提取出有意义的主题,并为每个主题生成清晰的标签和关键词。这不仅有助于平台优化内容推荐,还能为内容创作者提供有价值的反馈,帮助他们改进直播内容并增强与观众的互动。

具体来说,这种建模可以帮助:

  • 识别热门话题与趋势
  • 实现个性化推荐
  • 进行用户分群与社区建设
  • 评估主播表现并提供反馈
  • 进行情感分析与情绪监控
  • 检测异常评论并解决问题
  • 自动分类与管理内容
  • 制定市场细分与营销策略
  • 提供内容创作灵感
  • 维护健康的社区氛围

二、项目实战

1、环境配置

        实验环境是在Anaconda3工具的Jupyter notebook环境中运行的,我之前的环境中有一些常用的依赖包,后面运行环境时新安装了如下包(注意:依赖包安装简单,差什么依赖包就安装什么依赖包,难度不大,就不一一列举所安装的依赖包了):

!pip install hdbscan -i https://mirrors.aliyun.com/pypi/simple/
!pip install pyltp -i https://mirrors.aliyun.com/pypi/simple/
!pip install umap-learn
......

2、数据准备 

2.1 导入依赖包和数据加载

首先要做的是导入依赖包和数据加载,如下:

import numpy as np
import pandas as pd
import jieba
import umap
import hdbscan
from sentence_transformers import SentenceTransformer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise
;