Bootstrap

基于python对抖音热门视频的数据分析与实现

1.1  研究背景

随着互联网技术的飞速发展,短视频平台已经成为人们日常生活中不可或缺的一部分。抖音作为其中的佼佼者,凭借其简洁的操作界面、丰富的视频内容和高效的推荐算法,吸引了大量用户。截至2022年底,抖音日活跃用户数已超过6亿,成为全球最大的短视频平台之一。用户在抖音上分享生活点滴、展示才艺、传播知识,形成了一个丰富多彩的社区生态。这一现象不仅改变了人们的娱乐方式,还对社会文化、经济等多个领域产生了深远影响。

抖音的崛起为研究者提供了丰富的数据资源,使得对短视频内容的分析成为可能。通过分析抖音热门视频,可以深入了解用户兴趣偏好、内容创作趋势以及平台算法机制。这些研究不仅有助于优化平台内容推荐,提升用户体验,还可以为企业提供精准营销策略,帮助政府和社会机构更好地理解公众情绪和社会动态。例如,通过对热门视频的情感分析,可以了解公众对特定事件的态度和情绪;通过对视频内容的分类分析,可以揭示不同领域的热门话题和趋势。

此外,抖音平台的开放性也为数据获取提供了便利。抖音提供了丰富的API接口,允许开发者和研究者获取视频数据、用户数据、评论数据等。这些数据的获取和分析需要借助Python等编程语言,利用其强大的数据处理和分析能力。Python拥有丰富的数据科学库,如Pandas、NumPy、Matplotlib等,可以高效地进行数据预处理、统计分析和可视化。同时,机器学习库如Scikit-learn、TensorFlow等,可以用于构建复杂的模型,进行数据挖掘和预测。

研究抖音热门视频的数据分析不仅具有理论意义,还具有实际应用价值。在理论层面,通过对抖音视频内容的深入分析,可以揭示短视频平台的运作机制,为社交媒体研究提供新的视角。在应用层面,研究结果可以为企业提供市场洞察,帮助其制定更有效的营销策略;可以为内容创作者提供创作指导,帮助其创作更受欢迎的内容;还可以为政府和社会机构提供决策支持,帮助其更好地管理社会舆论和公众情绪。

1.2  研究目的

本研究旨在通过Python编程语言,对抖音热门视频进行深入的数据分析,探索视频内容与用户行为之间的关联性。通过这一过程,我们希望揭示哪些因素能够有效促进视频的热度提升,以及这些因素如何影响用户观看、转发、评论等行为。研究将聚焦于以下几个方面:

  1. 视频内容特征,如时长、标题、发布时段等,与视频热度之间的关系;
  2. 用户互动行为,包括点赞、评论、转发次数对视频热度的影响;
  3. 视频标签和关键词的使用情况及其对视频推荐算法的影响。

通过对上述因素的综合分析,研究旨在为内容创作者提供科学的指导建议,帮助其优化视频内容,提高视频热度,同时为平台管理者提供数据支持,优化推荐算法,提升用户体验。

此外,本研究还将探讨不同类型的热门视频在用户群体中的传播规律,分析其背后的社会文化因素,为相关领域的研究者提供有价值的数据参考。本研究期望通过系统性的数据分析,为抖音平台的视频内容优化、用户行为分析以及推荐算法改进提供科学依据,促进平台内容生态的健康发展。

1.3  研究意义

研究抖音热门视频的数据分析,对于理解短视频平台的用户行为模式、内容传播机制以及平台运营策略具有重要价值。通过Python编程语言进行数据抓取、预处理、分析与可视化,不仅能够为学术研究提供新的视角与方法论支持,还能为实际应用提供有力的数据支撑。

(1)从用户层面来看,了解哪些类型的内容更易获得关注与分享,有助于个人创作者优化内容创作策略,提高作品的可见度与影响力。对于企业而言,掌握热门视频背后的趋势与规律,可以更精准地定位目标受众,设计更有效的营销方案,提升品牌价值与市场竞争力。此外,该研究还能帮助平台方优化推荐算法,提升用户体验,促进内容生态的健康发展。通过分析视频的标签、评论等信息,可以深入了解用户偏好,为个性化推荐提供依据。同时,对视频时长发布时间等因素的研究,有助于平台制定更加合理的运营策略,鼓励高质量内容的产出。

(2)从社会角度来看,研究抖音热门视频的数据分析,有助于揭示网络文化现象,促进对青少年网络行为的正确认识与引导。通过分析视频内容的主题分布,可以洞察当前社会热点与公众关注点,为政府制定相关政策提供参考。此外,该研究还有助于识别网络空间中的不良信息,为构建清朗的网络环境提供技术支持。

基于Python对抖音热门视频的数据分析,不仅在技术层面具有创新性与实用性,在社会层面也具备广泛的应用价值,对于推动短视频行业的发展、优化用户体验、促进社会进步具有重要意义。

第二章  文献综述

2.1  国内外研究现状

近年来,随着短视频平台的快速发展,尤其是抖音等社交媒体的普及,基于Python的数据分析方法已广泛应用于热门视频的研究。这些研究主要集中在视频内容的传播效果、用户互动、以及平台算法对视频流量的影响等方面。

Python在短视频数据分析中的应用主要依赖于自然语言处理(NLP)、情感分析、词频分析、情感倾向分析等技术。通过分析视频评论、点赞量、转发量、观看时长等量化数据,研究者能够揭示视频的受欢迎程度及其传播模式。例如,蔡唯和张晋伟的研究通过层次分析法结合数据挖掘技术,分析哔哩哔哩平台的运动健身视频,构建综合评价体系,重点关注用户的主观体验、评论情感分析及视频内容的科学性【4】。此外,周敏和卢亚兰的研究则揭示了短视频平台(如抖音)如何通过娱乐消费属性和文化内容塑造“网红城市”的形象,并指出内容同质化和泛娱乐化等问题【5】。

某些研究也关注了视频发布的时间、频率、平台属性对传播效果的影响。董方杰和余秀才通过分析医生群体发布的健康科普短视频,发现发布频率、内容包装和发布时段对传播效果有显著影响【6】。这些研究为优化短视频内容创作与传播策略提供了理论支持和实践建议。

基于Python的短视频数据分析已成为研究视频传播和用户行为的重要工具,未来随着技术的发展,数据分析将在短视频内容优化与平台运营中发挥越来越重要的作用。

在国际上,虽然抖音主要在国内市场运营,但其国际版TikTok在全球范围内取得了巨大成功,吸引了大量国际研究者的关注。国外学者从跨文化视角出发,研究了TikTok在全球不同地区的传播特点和用户行为差异。例如,有研究者通过比较分析,发现不同文化背景下的用户在视频内容选择、互动方式等方面存在显著差异。这些研究不仅有助于理解全球用户的行为模式,也为TikTok的全球化策略提供了理论依据。此外,还有研究关注TikTok在政治传播中的作用,探讨了平台如何被政治力量利用,影响公众舆论和选举结果。这些研究揭示了TikTok在政治传播中的双刃剑效应,为平台的治理和监管提供了参考。

尽管国内外研究者对抖音和TikTok进行了广泛研究,但仍存在一些研究空白。例如,现有研究多集中于平台的用户行为和内容分析,而对于平台算法的透明度、数据隐私保护等方面的研究相对较少。此外,虽然有研究关注了平台对青少年的影响,但缺乏长期跟踪研究,难以全面评估平台对青少年的长期影响。未来的研究可以进一步探索这些领域,为平台的健康发展提供更加全面的理论支持。

2.2  研究趋势

基于Python的数据分析在短视频领域的研究将更加注重多维度数据的融合与深度挖掘。随着自然语言处理(NLP)和情感分析技术的进步,研究将更加精准地分析用户评论、互动行为和情感倾向,以揭示视频内容的影响力与传播规律。同时,视频内容的个性化推荐、平台算法对流量的影响以及发布时机的优化将成为研究重点。此外,跨平台的数据整合与多领域的跨学科合作也将推动短视频传播效果的深度分析,推动内容创作和运营策略的精准化和智能化。这些趋势将帮助平台、内容创作者和研究者更好地理解和把握短视频的传播机制与用户行为。

2.3  研究空白

尽管当前关于抖音视频的研究已经取得了一定的进展,但仍存在一些研究空白,尤其是在情感分析、词频分析和LDA主题分析等方面。现有研究多集中于视频观看量、点赞量等表面数据,缺乏深入分析用户评论中的情感倾向、情绪波动以及潜在的兴趣话题。因此,填补这一空白的研究将从以下几个方面展开:

情感分析通过Python中的情感词典,对评论进行情感倾向的分类,从而揭示用户对视频内容的真实反馈。这将有助于更准确地理解受众情感,优化视频内容的创作。

词频分析能够提取评论中的高频词汇,为视频内容的优化提供数据支持。通过词频变化趋势,可以预测用户的兴趣点及关注热点。

LDA主题分析则帮助挖掘评论中的潜在话题,进而揭示用户关注的深层次主题。通过综合这三种分析方法,本研究可以更全面地揭示抖音平台上热门视频的传播规律与受众偏好,填补现有研究在情感与话题分析方面的空白,推动短视频内容创作与运营策略的精准化。

第三章  研究方法

3.1  数据采集

通过模拟请求的方式,采集抖音视频评论数据。核心方法是构造带有特定参数的HTTP请求,并通过解析返回的JSON数据提取相关信息。通过读取存储在本地的JS脚本文件a_b.js,生成请求中的伪造参数a_bogus,这一过程有助于绕过防护机制,提高请求成功率。采集数据时,设置了一些特定的请求头信息,如User-Agent、Referer等,以模拟真实的浏览器请求,防止被目标网站屏蔽。

数据采集的目标是从抖音视频页面获取评论信息。通过请求URL https://www.douyin.com/aweme/v1/web/comment/list/,传递必要的查询参数,包括视频ID(aweme_id)、分页游标(cursor)、每页评论数(count)等,分页方式遍历视频的评论数据。每次请求成功后,代码会解析返回的JSON数据,提取出评论的详细内容,包括评论ID、评论用户昵称、评论时间、评论文本内容、评论点赞数等。对于每条评论,提取用户主页链接和评论的IP标签。

所有获取到的数据最终通过excel保存,通过这种方式,能够高效地采集并存储大量抖音视频的评论数据,为后续的数据分析提供支持。数据采集流程图如下:

图3.1

3.2  数据预处理

数据预处理是数据分析流程中的关键步骤,直接影响到后续分析结果的准确性和可靠性。在本研究中,数据预处理主要包括数据清洗与处理的流程涉及多个步骤,从数据读取、去重、文本清洗、分词、停用词去除、数据转换等。

数据转换主要涉及数据类型的转换和特征工程。数据类型的转换包括将非数值类型的数据转换为数值类型,以便于后续的计算和分析。特征工程则包括创建新的特征和选择重要的特征,以提高模型的预测能力。

3.2.1  数据读取和去重

使用 pandas 的 read_excel 方法读取 Excel 文件,将其存储为一个 DataFrame。读取数据后使用drop_duplicates 用于去除重复的标题行,inplace=True 会直接修改原 DataFrame。通过 subset=['标题'],去重操作仅基于 标题列进行。reset_index 用于重置索引,以确保索引从0开始。去重后结果如下:

图3.2

3.2.2  文本清洗

文本清洗包括正则表达式过滤非中文字符和提取中文字符。首先使用正则表达式 [\u4e00-\u9fa5^a-z^A-Z^0-9^,.,。!:] 用于去除文本中的非中文字符、非英文字符、非数字以及一些不需要的符号。通过 re.sub 函数清除文本中不需要的字符,接着将文本按空格分词,去除预设的停用词,并将其重新组合成一个以空格分隔的字符串。文本清洗结果如下图:

图3.3

3.2.3  停用词处理和词频统计

停用词处理包括用词文件加载和停用词去除与分词。停用词文件通过 pandas.read_csv 方法加载,停用词是指在文本处理中无太多实际意义的词汇,常常在分词后去除。通过 jieba.lcut 进行中文分词,并且过滤掉长度为1的单字和换行符。停用词通过与 stopwords 列表进行对比,去除分词结果中不需要的词汇。最后计算词频并统计文本中词语的出现频率,词频统计后如下图:

图3.4

3.2.4  TF-IDF向量化 

使用 TfidfVectorizer 对文本数据进行向量化,转换为 TF-IDF(Term Frequency-Inverse Document Frequency)矩阵。max_features=1000 限制了输出的特征数量为最多1000个。然后计算每个特征词的平均 TF-IDF 权重并按降序排列,向量化后如下图:

图3.5

第四章  数据分析与可视化 

4.1  数据分析

在本研究中,数据描述部分旨在通过统计分析与数据可视化,全面展示抖音热门视频的核心特征与分布情况,为后续深入分析奠定基础。所收集的数据集包括视频ID、发布日期、视频时长、点赞量、评论量、转发量、收藏量、视频标题、标签、创作者ID等字段。这些字段共同构成了对视频内容及其传播效果的多维度描述,分析的内容主要围绕视频标题、视频种类、评论区的地域分布、情感倾向及评论内容的主题进行深入探讨。以下是几个核心分析内容:

热门视频标题词频分析:通过对抖音热门视频标题的文本进行词频分析,可以揭示用户在特定时段内关注的热点话题和趋势。使用自然语言处理(NLP)工具,如jieba进行中文分词,结合Counter或pandas进行频率统计。通过可视化工具如matplotlib、wordcloud等,生成词云图,展示最常出现的关键词或话题,帮助了解受欢迎视频的内容特征。

热门视频种类分析:分析抖音热门视频的种类(如娱乐、教育、美妆、体育等)可以揭示不同领域的受欢迎程度。通过爬取视频分类信息,对不同种类的视频进行统计,并结合用户的互动数据(如点赞、评论、转发)进行综合分析。使用pandas对视频类别进行分组汇总,利用条形图或饼图展示各视频种类的受欢迎度分布。

评论区IP分布地域分析:通过分析评论区用户的IP标签,了解评论用户的地域分布情况。这需要解析评论数据中的IP字段,结合城市或地区数据库进行映射,最终通过pyecharts等地理数据可视化工具展示地域分布。这样有助于了解不同地域用户对视频的关注程度及其文化偏好。

评论区情感分析倾向分析:情感分析主要是对评论文本进行情感倾向的分类,判断评论是积极、消极还是中立。利用SnowNLP等情感分析工具对评论文本进行分析,并结合pandas计算各类情感的比例。通过情感分析,可以揭示用户对视频的整体情感态度,帮助内容创作者优化视频内容。

评论LDA主题分析:通过LDA(Latent Dirichlet Allocation)主题模型对评论内容进行主题分析,挖掘评论中潜在的主题模式。使用gensim库进行LDA模型训练,对评论文本进行分词和预处理后,识别出评论中最为关注的主题。通过可视化pyLDAvis工具,展示不同主题词之间的关联度,帮助了解观众对视频的多重关注点。

4.2  数据可视化

4.2.1  热门视频标题词云图

从Excel文件中加载视频标题数据,并通过drop_duplicates去除重复的标题。使用正则表达式清洗文本,去除非中文、英文和数字字符,同时保留常见标点符号。移除标题中的停用词(如“我”、“你”、“非常”等),以确保分析的关键词更有代表性。利用jieba对每个标题进行分词,将标题转换为词语的列表,并去除长度为1的词(如“的”、“了”等)。对清洗后的词语进行频率统计,使用Counter计算每个词出现的频次,并根据频次排序,提取出最常出现的关键词。利用WordCloud库,将频次高的词生成词云图。这里还可以设置一些参数,如背景颜色、字体、图形形状等。最后,使用matplotlib展示生成的词云图,并保存为图片。词云图如下效果。

图4.1

视频平台的热门内容主要集中在娱乐、音乐、剧集和社交互动等领域。其中,"热门"、"短剧"和"抖音"等词汇频繁出现,表明短视频平台上的剧集和视频内容在用户中非常受欢迎。"推荐"和"分享"的出现频率也说明用户乐于参与内容传播和社交互动。同时,"音乐"、"歌曲"、**"热歌"**等与音乐相关的词汇,反映出音乐类视频和歌曲内容的关注度较高。短视频内容的多样化和娱乐化是当前趋势,涵盖了剧集、歌曲、搞笑和回忆等多种主题。

4.2.2  热门视频种类柱形图

实现热门视频种类柱形图,对数据进行整理,分析每个视频的种类或标签。视频标签数据字段通过对每个视频的标签进行分割、清洗和统计,得到每种标签的出现次数。使用 pandas 库进行数据统计,计算每个标签或视频种类的频次。通过 matplotlib 或 pyecharts 等可视化库,创建一个柱形图,展示每个视频种类或标签的热度(频次)。柱形图如下效果。

图4.2

从中可以看出,短剧(如《夫人别逃了贺少真的是来报恩的》、《六翼短剧》等)和短视频平台(如抖音)的内容仍然是用户关注的核心,尤其是短剧推荐、好剧分享和热门剧集在数据中占据较高频率。此外,音乐和舞蹈也深受关注,像“抖音热歌”和“热门音乐”有着显著的热度。另一方面,抖音运营技巧和热点话题(如“提升播放量的方法”)也显示出创作者对平台增长的高度重视。整体来看,娱乐、音乐、短剧与短视频内容的互动性与创新性是当前网络热点的关键。

4.2.3  评论区ip分布地域图

从评论数据中提取出每条评论的用户IP信息,并通过 df.groupby('用户ip')['评论用户'].count().reset_index() 统计每个IP的评论用户数。这一步得到的是每个IP对应的评论数量。由于评论IP地址是地区简称,将IP地址转换为具体的省份名称。通过 province_mapping 字典,将IP地址中的简称(如“上海”、“北京”)映射到全名(如“上海市”、“北京市”)。将转换后的IP地区数据传入 Map 图表组件,设置标题和颜色映射,最终通过 .render("地区分布.html") 输出为HTML文件,形成可交互的地图。如下图:

图4.3

显然,广东省的活跃度遥遥领先,达到1607,可能与其较大的人口基数和经济活力相关。其次,上海市、北京市、浙江省和四川省等地也显示了较高的数字,反映出这些地区在网络活跃度上的强势表现。相对而言,一些较小或人口较少的地区,如西藏、宁夏和青海,数据较低,可能是由于其人口规模较小或互联网普及程度较低。数据呈现出一个与经济发展、人口规模密切相关的趋势。

4.2.4  评论区情感分析倾向图

通过使用 SnowNLP 库对评论内容进行情感分析。SnowNLP是一个中文自然语言处理库,能够根据每条评论的情感分数(Sentiment Score)判断评论的情感倾向。情感分数的范围是0到1,0表示消极情绪,1表示积极情绪。根据这个分数,将评论分为积极、中性和消极三类。例如,当分数大于0.6时,判断为积极情感;分数在0.4到0.6之间为中性情感;低于0.4则为消极情感。将每条评论的情感结果(积极、中性、消极)保存到数据框中的“情感分析”列中。最后,使用 Matplotlib 进行数据可视化,统计各情感类别的评论数量,并绘制条形图或饼图展示评论情感的分布。该情感分析倾向图可以帮助快速了解评论区用户的情感态度,从而为品牌管理、用户反馈或内容优化提供重要参考。如下图。

图4.4

4.2.4  评论LDA主题分析

LDA(Latent Dirichlet Allocation)主题模型分析用于提取文本数据中的潜在主题,通过无监督学习自动识别文本中的主题分布。对评论数据进行清洗和分词处理,去除停用词并保留有意义的词汇。使用jieba对文本进行分词,并通过TfidfVectorizer计算每个词的TF-IDF值,以便量化每个词的权重。构建LDA模型,对文本进行主题建模。LDA模型通过指定主题数量(num_topics)来训练数据,并输出每个文档属于不同主题的概率分布。为了选择最佳的主题数,利用困惑度(perplexity)和一致性(coherence)指标进行评估,寻找困惑度最小且一致性较高的主题数。通过LDA模型,得到每个评论的主题分布和每个主题的关键词及其权重,最终将结果导出到Excel文件,并通过pyLDAvis可视化显示主题分析结果。这一过程帮助深入了解评论数据中潜在的主题结构。一致性和困惑度曲线如下图。

图4.5

由一致性和困惑度分析曲线图可知,最佳建模主题数,数值应该取困惑度小同时一致性高的拐点,最优主题数4效果最好。LDA主题可视化图如下:

图4.6

根据LDA主题分析结果,四个主题的关键词展示了不同的情感和社交场景。

第一个主题包含与日常生活相关的元素,如“手机”、“外卖”、“男人”等,表达了一种轻松、幽默或困境中的生活情感,可能涉及现代人对于物质和情感需求的感受。

第二个主题涉及“玫瑰”、“爱心”、“鼓掌”等,透露出正能量、支持与赞美,或许与表达感激、关怀的情境有关。

第三个主题则以“泣不成声”、“笑尬”等情绪词汇为主,表明人们面对困境或尴尬时的反应,可能描绘了难以言表的情感波动。

第四个主题强调感恩与关怀,如“感谢”、“抱抱”、“吉言”等,传递了人与人之间的互助与支持,可能反映了在社交或服务场景中的情感交流。

第五章  总结 

基于Python对抖音热门视频的数据分析表明,当前短视频平台的内容多样化和娱乐化趋势显著,涵盖了短剧、音乐、社交互动等多个领域。从视频标题的词频分析来看,词汇如“热门”、“短剧”、“抖音”等频繁出现,表明短剧内容和平台本身仍然是用户关注的核心。此外,“推荐”和“分享”的出现频率也反映了用户在内容传播和社交互动中的积极参与,说明平台用户对分享和传播内容有较高的热情。

在评论区IP地域分析中,广东省的网络活跃度遥遥领先,可能与其较大的人口基数和经济活力相关,上海、北京、浙江、四川等地区也表现出较高的活跃度,而一些较小地区如西藏、宁夏和青海则显得较为低迷,揭示了经济发展和人口规模对网络活跃度的影响。

情感分析与LDA主题分析进一步揭示了用户在评论区的情感倾向。通过LDA分析,评论的主题主要集中在日常生活中的幽默情感、正能量的支持与赞美、困境中的情绪波动以及感恩与关怀的交流,显示出用户在互动时的情感多样性和社交需求。整体而言,抖音平台的热门视频内容在娱乐、音乐、社交互动等方面具备强大的吸引力,且内容创新性和互动性成为网络热点的核心驱动力。

;