Bootstrap

2021-02-01

Topic sentiment analysis in twitter: a graph-based hashtag sentiment classification approach.论文数据集特征

01摘要

推特是每天发布大量即时消息(即推文)的最大平台之一。用户倾向于在Twitter上自由表达自己的真实感受,使其成为捕捉各种有趣话题(如品牌、产品或名人等)观点的理想来源。当然,人们可能会期待一种方法,直接接收对这些主题的共同情绪倾向,而不是通过阅读关于它们的大量推文。另一方面,标签在关键字或短语前面以符号“#”开头,作为粗粒度主题广泛用于推文。本文没有介绍与主题相关的每条推文的情感极性,而是将研究重点放在标签级情感分类上。这项任务旨在自动生成给定标签在一定时间段的总体情绪极性,这与传统的句子级和文档级情绪分析明显不同。我们的调查表明,三种类型的信息对完成任务很有帮助,包括(1)包含标签的推文的情感极性;(2)标签共存关系;(3)标签的字面意义。因此,为了将前两种类型的信息纳入一个可以集体分类的分类框架,我们提出了一种新的图表模型,并研究了三种近似的集体分类算法来进行推理。更进一步,我们表明,使用增强的增强分类设置,我们将标签的字面意义用作半监督信息,从而显著提高性能。由29,195条推文和2,181个标签组成的真实数据集的实验结果表明了该模型和算法的有效性。

02introduction

Twitter因其即时消息(即推文)的大量传播和自由的性质而广受欢迎。 突发的世界新闻,关于名人的娱乐八卦以及对最近发布产品的讨论都生动地收集在Twitter中。 除了仅显示新闻和报道,Twitter本身还是一个大型平台,可以表达和交流不同的观点。 无论人们来自何处,无论他们持有什么宗教信仰,无论贫富,文明或未受教育,他们都对自己感兴趣的话题发表评论,讨论,达成,争辩和抱怨,自由地表达自己的感受。 众所周知,这些具有丰富情感信息的用户生成的内容应用于许多应用程序,例如搜索引擎和其他信息系统。
尽管推文级别的情感分析结果确实提供了非常有用的信息,但是在某些情况下,针对主题的总体或总体情感趋势更有吸引力。 例如,人们对其他人对苹果新产品“ iPhone4”的感觉很好奇,如果从大量推文中收集主要意见,它将为他们提供极大的便利。 Lady Gaga的粉丝对他们的超级巨星发生的事情以及其他人的反应着迷。 在阅读有关政治选举的新闻时,有望同时获得有关Twitter上总统候选人的支持和反对的概览。 在所有这些情况下,都需要在一段时间内针对该主题进行全面的情绪趋势分析。 在本文中,为了满足这一需求,我们利用Twitter中主题标签的独特特性。
在Twitter中,主题标签是社区驱动的约定,用于在推文中添加其他上下文和元数据。 它们是由Twitter用户创建的,用于对消息进行分类和突出显示主题的方法,只需在单词或短语的前面加上一个哈希符号即可,例如**“ #hashtag”**。 主题标签的广泛使用使Twitter更具表达力,并受到人们的欢迎。 我们对包含约60万条随机选择的推文的数据集进行了测量,发现其中约14.6%的推文中至少有一个主题标签。 仅考虑主观时,推文(带有正面/负面情绪表达的推文),该数字增加到27.5%。 统计数据显示使用Twitter中的标签进行情感分析的巨大潜力。 分析的另一个方面说明了Twitter中主题,情感和主题标签之间的紧密联系。 确切地说,主题标签可以分为三种类型。 大多数主题标签(主题主题标签)用作用户注释的粗略主题,例如在推文中“昨天我再次看了你的电影,这次我哭了。 非常爱你! #贾斯汀比伯”。 在其他情况下,主题标签(情感主题标签)可能是突出显示情感信息的简便方法。 此类别的标签仅由情感词组成,例如“ #love”,“#sucks”等。此外,第三类标签(情感主题主题标签)是出现主题词和情感词的主题标签 在一起而没有空白。 例如,“#iloveobama”(我爱奥巴马)直接表达了对总统奥巴马的积极看法。 因此,属于此类的主题标签更具信息性,因为它们可以同时明确指示情感目标及其表达。 基于这些观察,我们认为主题标签级别的情感分析将带来有关Twitter主题的更多理解。
关于主题标签级别的情感分类的一个直观想法是,将情感极性与包含主题标签的每个相应推文的分类结果进行汇总。 但是,这种简单的方法在我们的实验中效果不佳。 导致效果不佳的主要原因之一是,即使对于最新的情感分类算法,推特级情感分类的准确性通常也达不到预期的水平,从而使主题标签级分类成为可能 任务更具挑战性和棘手性。 我们不关注推文级别的情绪分析。 取而代之的是,我们旨在寻求其他主题标签的特征,以产生可靠,可靠的主题标签级情感分类结果。 具体来说,除了鸣叫级别的情感分析结果外,我们还确定了其他两种类型的信息,这些信息对于确定主题标签的情感极性具有强大的作用。 首先,哈希标签之间的共现关系很重要。 在我们的Twitter数据集中,我们观察到对于任何两个同时出现的主题标签,共享相同的传感器极性的概率超过0.8055。 但是,当随机选择它们时,该值下降到0.5324。 这种比较意味着可以使用成对信息来提高分类性能。 其次,主题标签的字面意思是另一个有用的功能。 对于情感主题标签(例如,“#love”,“#sucks”),我们发现它们通常与主题主题标签(例如,“#iPad”,“#Obama”)一起出现,以形成推文,从而清楚地传达了针对主题的情感倾向 ; 对于像“ #iloveobama”这样的情感主题哈希标签,它们可以充分自解释以明确指示情感极性和目标。 因此,我们有动力将共现关系和主题标签的文字信息整合到分类框架中,从而使我们得到本文介绍的主题标签图模型。

03Data Collection and Evaluation

由于难以收集“黄金标准”数据集,因此对主题标签级别的情感分类的评估具有挑战性。 尽管可以进行人工注释,但我们认为工作量对大规模评估数据的要求很高。 更加不可靠的是,无法实现令人满意的注释者之间的协议,其中两个促成因素是,在具有不同情感的推文中经常使用主题标签,并且始终无法自信地确定推文的情感极性。 取而代之的是,在我们的实验中,为了评估主题标签情感分类的性能并收集用于增强增强分类的训练数据,我们使用自标注的方式来标记数据集。数据收集过程描述如下。 我们首先进行粗粒度选择,找到我们感兴趣的主题标签。我们选择了10个主题,包括“奥巴马”,“布什”,“加加夫人”,“贾斯汀·比伯”,“伊斯兰教”,“湖人”,“ Youtube” ”,“ iPad”,“ Android”和“ Microsoft”。 然后,我们在tweets池中搜索包含主题词作为种子的hash标签。 因此,通过检索与种子主题标签中至少一个共同出现的所有主题标签,将此种子集扩展为我们的主题标签集H。 最后,对于H中选定的主题标签,我们用适当的情感极性标签(pos,neg)标记了包含情感词4的主题标签。 H的这个子集用H denoted表示,用作增强固定分类的标签固定集和评估的测试集,以测量准确性,准确性,召回率和F1指标。
在我们的实验中,我们的推文池在一周内从Twitter收集了大约60万条推文。 经过种子选择和数据富集过程,我们获得了由2,181个标签组成的H组成,这些标签出现在29,195条推文中。 边缘集E的大小是27,430。 选择包含强烈情感词的主题标签将导致包含947个示例的H subset子集,该示例具有595个正样本和352个负样本。 H中的其余主题标签没有自动注释的groundtruth,但是可以通过案例研究评估它们的分类。 该数据集用于衡量主题标签分类算法的性能。 对于增强的升压分类方法,该数据集将被散布到训练集和测试集中,以通过交叉验证来评估分类结果。

04Case Study

我们通过查看一些具体示例来研究主题标签级别的情感分类的结果。 我们在表中列出了一些有趣的主题标签,这些主题标签只能通过我们提出的图形模型才能正确分类。 由于我们无意强调任何特定ACCA的性能,因此仅介绍从LBP获得的结果。 我们列出了主题标签及其邻居,这些邻居会产生影响,将其极性分配更改为正确的标签8和相应的推文。
在此列表中,首先通过SVM投票将主题主题标签(如“ #obama”)归为否定标签。 这是不正确的,因为通过我们的分析,我们发现“ #iloveobama”,“#change”和“ #ideal”以及其他积极的标签通常与“ #obama”一起出现,并且这些相邻的标签是 由用户创建,以突出他们对“ #obama”的情绪倾向,如表中以下推文所示。 主题标签的集体分类可能非常有效,尤其是当推文不够直观时,无法使用两阶段支持向量机进行情感分类。 “ #ipad”的示例推文:“#iPad #jaja #ILoveIPad http://youtu.be/vaif2uq_0Vc上的猫游戏”,由于无法捕获pos,因此无法用推文级分类器正确预测 -来自“ #ILoveApple”的积极情绪。 另一则有关Lady Gaga的推文“说我崇拜#Gaga …好吧…这是否意味着我#gay?” 隐含地传达负面情绪,这对于推特级别的情绪分类来说太难了。
支持SVM投票的基线性能低的三个原因:(1)Tweet简短,仅凭unigram和情感词典功能很难推断情感极性; (2)推文中包含指向(或重定向到)视频或新闻的链接(或重定向,例如“ http://bit.ly/eZJDoJ”),这些链接反映了作者对主题的基本情绪,因此无法成功进行分析。 (3)推文包含对主题的正面和负面情绪表达,例如“ iTunes是很好的软件,但失败的频率通常与您使用的一样:) #fail #itunes #apple”。 这些因素使推文级别的分类器和我们的基线对嘈杂的数据相当敏感,从而导致标签级别的情感分析性能较差。
结合邻居标签的情感信息使我们有机会共同重新标签标签的极性。 该方法可以忍受推文级别分类引入的错误,并允许标签之间的相互情感影响,从而提高了性能。

05结论

在本文中,我们研究了一项新颖的任务,即Twitter中主题标签的情感分类。 我们认为这对于主题的情感分析非常重要,因为主题标签可以近似地视为用户注释的主题。 我们通过简单的投票策略针对包含主题标签的推文的敏感度分析结果开发了基线方法。 这种直观方法的性能并不像我们预期的那样令人鼓舞。 为了改善主题标签级别的情感分类,我们提出了一种图形模型来提高投票基线的结果,该模型有效地整合了推文情感信息和主题标签共现关系。 初步结果表明,与基线相比,我们的图形模型能够提供具有竞争力的性能。 进一步,通过从主题标签中提取文字情感提示,我们构建了增强的增强主题标签分类框架,在该框架中,可自我解释的主题标签是固定标签的,并且没有针对极性进行更新,而仅对邻居提供情感影响 主题标签。 实验结果表明,在这种增强设置中取得了显着改善。

原文:https://dl.acm.org/doi/10.1145/2063576.2063726

;