Bootstrap

【数据分析实战】马来西亚吉隆坡景点评论分析:多维度游客体验与运营优化洞察

1. 项目背景

吉隆坡作为马来西亚的首都,凭借其独特的地标建筑、丰富的文化历史以及多元的游客体验,吸引了来自世界各地的旅行者。本次项目以吉隆坡主要景点的游客评论数据为基础,利用Python进行深度分析,旨在揭示游客的真实体验感受,为景区优化提供科学依据,同时为旅行者规划行程提供实用参考。

2. 数据采集与处理

  • 数据来源:通过爬虫技术采集携程旅行平台的公开评论数据,涵盖清真寺、乐高乐园、吉隆坡双子塔等多个热门景点的游客反馈。共采集到2790条评论数据。
  • 数据集展示
Unnamed: 0_idcommentIdpoiInfoextInforeplyInforeplyTypeListcommentKeywordListcommentTagInforesourceIdresourceTypebusinessIdbusinessTypedistrictIdsourceTypeexternalResourceIdhasVotedisUnUsefulshowUsefulModuleisPickedisGoodisOwnerfromTypefromTypeTextpublishTimepublishStatususefulCountreplyCountscoretouristTypeimagesvideosscoresvoteUserscontentlanguageTypetranslateContenttranslateLanguageTypecanEditjumpUrljumpH5UrlreplyJumpUrlpublishTypeTagisTripShootaiTagIdSensreplyTagreplyContentreplyTimesetTitleouterTitleimpressionTagsrecommendItemschildrenTagipLocatedNamereplyIpLocatedNameisFollowisDeletedclientInfoipjumpMiniAppUrlisAnonymtheForkLogoUrltimeDurationtouristTypeDisplayoriginContentcollectCnthasCollectedisUnderReviewpredicted_labelipLocatedNameEntouristTypeDisplayEn
00201640364201640364未知未知[]未知[][]350074350011451010FalseFalse1FalseFalseFalse9来自Trip.com/Date(1736782745000+0800)/60050[{‘imageId’: 1363878031, ‘height’: 1425, ‘width’: 2532, ‘imageSrcUrl’: ‘https://dimg04.c-ctrip.com/images/1mk6o224x8ylexyhw14E2_W_640_10000.jpg?proc=autoorient’, ‘imageThumbUrl’: ‘https://dimg04.c-ctrip.com/images/1mk6o224x8ylexyhw14E2_D_180_180.jpg?proc=autoorient’, ‘tagText’: None, ‘tagId’: None}, {‘imageId’: 1363878000, ‘height’: 2532, ‘width’: 1899, ‘imageSrcUrl’: ‘https://dimg04.c-ctrip.com/images/1mk6f224x8ylexyhx6FC6_W_640_10000.jpg?proc=autoorient’, ‘imageThumbUrl’: ‘https://dimg04.c-ctrip.com/images/1mk6f224x8ylexyhx6FC6_D_180_180.jpg?proc=autoorient’, ‘tagText’: None, ‘tagId’: None}, {‘imageId’: 1363878032, ‘height’: 2532, ‘width’: 1425, ‘imageSrcUrl’: ‘https://dimg04.c-ctrip.com/images/1mk3o224x8yleme3m1CF3_W_640_10000.jpg?proc=autoorient’, ‘imageThumbUrl’: ‘https://dimg04.c-ctrip.com/images/1mk3o224x8yleme3m1CF3_D_180_180.jpg?proc=autoorient’, ‘tagText’: None, ‘tagId’: None}][][][]必须参观吉隆坡的地方。如果喜欢坐在外面享受阳光,附近有很多不错的商店和餐馆。en-xx必须参观吉隆坡的地方。如果喜欢坐在外面享受阳光,附近有很多不错的商店和餐馆。zh-cnFalse/trip_flutter?flutterName=flutter_trip_shoot_review_detail&businessId=201640364https://m.ctrip.com/webapp/you/comment/detail/3500/74/201640364.html/rn_destination_video/main.js?CRNModuleName=destinationlive&CRNType=1&initialPage=CommentFloat&id=201640364&isPresent=0&topPercent=0.3&isTransparentBg=YES&scene=review&topBackgroundColor=rgba(0,0,0,0.6)2025-01-13 发布点评False未知未知未知未知未知未知未知未知未知未知未知FalseFalse未知未知/pages/gs/comment/detail?BusinessId=0&BusinessType=0&CommentId=201640364&POIId=0未知未知未知未知Must visit place in Kuala Lampur. Lots of nice shops and restaurants nearby if enjoy sitting outside and enjoying the sunshine.0False未知neutralUnknownUnknown
  • 数据预处理
    • 数据清洗:去除重复评论、空值评论以及与景点无关的信息。
    • 分词处理:采用 jieba 分词对中文评论进行分词。
    • 去除停用词:删除常见无意义词汇(如“的”、“了”等),以突出重点词汇。

3. 分析方法与过程

3.1. 词频统计与词云分析

  • 方法:利用Python的 collections.Counterwordcloud 库统计高频词并生成词云。
  • 结果
    • 词频分析显示“乐园”、“清真寺”、“双子塔”等关键词高频出现,反映出这些景点的热门程度。
    • 生成的词云图直观呈现了游客关注的核心内容,强调了“乐高”、“体验”、“粉红”等词汇,与游客具体景点感受一致。
  • 可视化展示
    在这里插入图片描述
    在这里插入图片描述

3.2. 情感分析

  • 方法:使用预训练的 BERT 模型结合 transformers 库,对评论文本进行六分类情感分析。

  • 结果

    • 总体正面评论占比约为75%,显示游客对吉隆坡的整体体验较为满意。
    • 负面情感多集中在“排队时间长”、“票务问题”等方面,尤其体现在亲子游客的反馈中。
      • 携程欺骗游客,水上乐园根本没有晚场,我们冲着双威水上乐园去的,结果换票后进去到水上乐园告知已关闭!这不是欺诈是什么?
      • 项目相对少了一点 其他的还可以 下午玩到3点多下雨了 老公好不容易排到的滑翔不能玩了 有点扫兴
      • 买了2大1小的套票,结果到了景点门口,工作人员都说这是一大一小的票子,在门口交涉了一个多小时才搞定!
      • 换票太慢,双休日人多,大喇叭排2小时,租柜子要钱,吃不贵,三也不知道周四买一送一一共120rm,比网上便宜
      • 和三年前来基本一样 儿童泳池的滑梯 和飞翔翼龙旁边那个矿坑设施在维修 孩子不开心了
        华人较少 出来就不能再次入园了 不人性化啊
      • 明天的票有人要吗买了两张临时去不了了,是真的
      • 照片有点坑钱,2张洗出来140马币,至少两张才给电子版,其他还行
      • 对外国人收的门票比本地人贵不少
  • 可视化展示
    在这里插入图片描述


3.3. 游客类型与情感分布分析

  • 方法:基于平台数据提取区分游客类型(如亲子游客、情侣游客、独自旅行者),并按类型分析情感分布。
  • 结果
    • 亲子游客:偏爱乐高乐园和水族馆,但对排队时间敏感,负面评论比例为20%。
    • 情侣游客:更青睐双子塔和粉红清真寺,90%的评论正面,尤其是对夜景和浪漫氛围赞不绝口。
    • 独自旅行者:更关注建筑与文化,负面评论集中于交通不便。
  • 可视化展示
    在这里插入图片描述

3.4. 地区情感分析

  • 方法:基于评论中提及的国家和地区,分析不同地区游客的情感分布。 (带地区的数据集有限,仅供参考)
  • 结果
    • 亚洲地区游客评论中正面情感占80%,欧洲游客中立情感占比略高,反映出文化差异可能影响体验感受。
    • 中国游客对清真寺的评价尤为突出,多数提到其“粉红色设计”和“独特的建筑风格”。
  • 可视化展示
    在这里插入图片描述

3.5. LDA主题建模

  • 方法:采用 gensim 库实现LDA主题模型,提取评论中的潜在话题。
  • 结果:LDA模型共提取出8个主题,主要集中于以下几类:
    1. 亲子游体验:乐高乐园、排队、儿童设施。
    2. 建筑观赏:双子塔、粉红清真寺、夜景。
    3. 服务问题:客服响应、门票管理。
    4. 自然景观:水族馆、植物园等体验。
  • 可视化展示
    • (0, ‘0.019*“我们” + 0.017*“没有” + 0.016*“携程” + 0.014*“一个” + 0.009*“小时” + 0.008*“时间” + 0.008*“门票” + 0.007*“结果” + 0.007*“10” + 0.006*“体验”’)
    • (1, ‘0.015*“客服” + 0.010*“我们” + 0.008*“扫码” + 0.007*“服务” + 0.006*“解决” + 0.006*“联系” + 0.006*“问题” + 0.005*“15” + 0.004*“场次” + 0.004*“时候”’)
    • (2, ‘0.023*“乐高” + 0.021*“体验” + 0.013*“可以” + 0.011*“水族馆” + 0.009*“乐园” + 0.008*“很棒” + 0.007*“酒店” + 0.007*“携程” + 0.007*“门票” + 0.007*“值得”’)
    • (3, ‘0.030*“吉隆坡” + 0.024*“可以” + 0.016*“双子塔” + 0.010*“不错” + 0.010*“非常” + 0.010*“看到” + 0.009*“这里” + 0.009*“夜景” + 0.009*“一个” + 0.008*“比较”’)
    • (4, ‘0.043*“乐园” + 0.028*“孩子” + 0.020*“项目” + 0.019*“乐高” + 0.019*“喜欢” + 0.019*“不错” + 0.019*“适合” + 0.017*“水上” + 0.016*“小朋友” + 0.015*“排队”’)
    • (5, ‘0.070*“吉隆坡” + 0.028*“建筑” + 0.023*“双子塔” + 0.023*“地标” + 0.018*“马来西亚” + 0.016*“打卡” + 0.013*“地方” + 0.012*“世界” + 0.008*“可以” + 0.008*“最高”’)
    • (6, ‘0.022*“可以” + 0.017*“方便” + 0.011*“我们” + 0.011*“便宜” + 0.010*“时间” + 0.010*“直接” + 0.009*“还是” + 0.009*“携程” + 0.008*“进去” + 0.008*“很多”’)
    • (7, ‘0.070*“清真寺” + 0.024*“粉红” + 0.021*“粉红色” + 0.019*“非常” + 0.012*“马来西亚” + 0.012*“建筑” + 0.011*“水上” + 0.010*“参观” + 0.010*“这个” + 0.010*“地方”’)
      在这里插入图片描述

4. 洞察与运营优化建议

4.1. 针对游客反馈的运营改进

  • 亲子游客:增设儿童娱乐设施,并优化高峰时段的排队机制。
  • 情侣游客:加强景点的夜景灯光设计,并推出浪漫主题活动。
  • 独自旅行者:完善公共交通设施,推出更便捷的地铁线路指引。

4.2. 解决具体问题的措施

  • 排队与票务问题:采用在线预约系统并推行分时段入园,减少游客高峰期的拥挤现象。
  • 客服服务改进:设置多语言客服支持,提高问题解决效率。

5. 技术实现与代码支持

  • 核心技术栈:Python + pandas + jieba + gensim + transformers + pyecharts
  • 数据分析代码片段
# 词频统计
word_counts = Counter(all_words)
word_data = [(word, count) for word, count in word_counts.items()]

# LDA主题建模
lda_model = models.ldamodel.LdaModel(corpus=doc_term_matrix, num_topics=num_topics, id2word=dictionary, passes=80, random_state=42)
topics = lda_model.print_topics(num_words=10)
for topic in topics:
    print(topic)
lda_vis = gensimvis.prepare(lda_model, doc_term_matrix, dictionary)

6. 总结与未来展望

本次分析揭示了吉隆坡景点的多维游客体验,结合评论数据提出了切实可行的优化建议。未来,可以引入时间维度分析游客感受的变化趋势,并拓展数据来源,如社交媒体评论,进一步提升研究的全面性和深度。

ps:需要数据集或定制数据可以联系作者
在这里插入图片描述


该分析仅供学习交流使用,禁止用于商业用途,不构成任何投资建议。

大数据分析为运营和各行业带来了前所未有的机会,使企业能够更敏锐地洞察市场、优化运营,并更有效地应对竞争和变革。在信息时代,充分利用大数据分析,将成为企业取得竞争优势的不可忽视的关键要素。

本人数据分析领域的从业者,拥有专业背景和能力,可以为您的数据挖掘和分析需求提供支持。期待着能够与您共同探索更多有意义的数据洞见,为您的项目和业务提供数据分析方面的帮助。

创作不易,如果你觉得有帮助,请点个赞支持一下。你的鼓励是我创作的最大动力,期待未来能为大家带来更多有趣的分析文章。感谢大家的阅读和支持!

;