Bootstrap

FaskSV:丰富背景知识+多模态的短视频新闻检测

一、概要

        本篇文章的主要贡献是收集了一个多模态的新闻数据集(FakeSV)并基于该数据集训练了一个新的真假新闻检测的模型(SV-FEND),并以该模型的效果作为该数据集的基线。

二、FakeSV介绍

        在之前的新闻检测数据集中,存在数据量少、特征模态不够多、新闻涉及面单一等问题。在FakeSV数据集中,首次将用户(发布视频的人)信息也归为一种模态。最后该数据集的情况如下展示:

         首先注意到该数据集来源是抖音和快手,所以处理的语言就是中文。然后数据集所包含的领域是全领域的,并不像之前只关注健康或者疫情新闻。

1.数据获取流程

        首先先从一些官方的网站爬取一些官方核实的新闻文章(2019.1-2022.1)。将没有“视频”一词的文章忽略,然后用启发式的正则表达式来提取文章的关键句子,再使用Bert编码这些句子,用K-mean方法去除重复的新闻事件。最后得到854个新闻事件。

        有了具体事件后再去抖音和快手两个网站上爬取相关的视频,对于爬取到的视频,需要收集:视频、封面、题目、发布时间;元数据(即点赞数、转发数)、前100条评论;发布者信息(自我简介、IP地址、粉丝数、前100个发布视频封面等)共三大类信息。下图展示其爬取的信息:

        对于分类标签标注,研究者团队通过手工标注,得到了1827条假新闻、1827条真新闻、1884条被揭穿的(debunked)新闻、738条无关新闻。下左图展示整体的爬取流程,下右图展示三类新闻所涉及的新闻事件数和发布时间分布:

 三、数据分析

        为了鉴别某个模态是否能作为特征去区别真假新闻,研究者分析了数据集中各个模态在真假新闻视频中的差异。首先文字、视频、音频是肯定有效果的,首先文字上,研究者分析真假新闻的词云图是有差异的(figure 4),视频的质量有稍微的差距(figure 5左图,真新闻质量更高),音频所表露的情感也有差异。(figure 5右图,真新闻的情感偏中性、理性)

         除此之外,发布新闻者和观众的反馈也是可用了判定新闻真假的信息。假新闻发布者中,没核实身份的人多,而真实新闻大多来源于为已正式的组织(figure 6左图);真实新闻发布者有更多的视频、粉丝和赞,假新闻发布者的订阅多(figure 6右图):

        在传播学上,研究者们还分析了真假新闻在发布时间上和视频重复度上的不同。对于热点事件,假新闻会频繁出现在被揭穿视频之后(figure 8左图);假新闻会有大量的重复视频发布在短视频网站中(figure 8右图)。

 四、模型架构

        文章提出模型架构并没有什么创新点,只是将多个模态信组合到一起传入transformer中进行训练:

五、实验结果

        在主实验中,由于是一个二分类任务,研究者将多个模型和方法进行四维标准(正确率、F1值、精确度和召回率)的比较。 

        然后做了各个模态的消融实验,证明了各个模态都有作用:

         此外,为了验证该模型是否存在预测能力。即我们都是用以前的数据来训练模型,会不会让模型对一些新视频作出较差的分类。于是研究者设计了时间分割的实验:将数据集按时间排序,分割成0.7:0.15:0.15的数据。用前0.7的数据来训练,来判断后面两段0.15的数据是否正确。得到的结果如下:

六、不足分析

         在对将假新闻识别成真新闻的那些数据中,研究者分析得到原因是视频是个人拍摄的,其存在着片面性,干扰了模型识别。于是研究团队的下一步是拓展模型的能力,提供足够的外部的事实的信息,提高模型的健壮性。

;