Bootstrap

论文笔记:HG-SL 面向假新闻早期发现的全局和本地用户传播行为联合学习

整理了AAAI2023 HG-SL: Jointly Learning of Global and Local User Spreading Behavior for Fake News Early Detection)论文的阅读笔记

背景

  经典的假新闻检测方法主要基于新闻内容,考虑到假新闻是为了误导消费者而故意编造的,这种方法很难识别伪装得很好的假新闻。与这种方法相比,欺骗仅依靠传播行为的模型需要干扰涉及许多普通用户的整体传播模式,这使得此类方法在理论上具有鲁棒性。
  但是,目前仅基于传播结构的模型效果不好,本文总结了以下原因:很少有模型从全局角度来学习新闻和用户之间的联系,这限制了对用户身份和偏好的学习。一般来说,普通用户和特殊账号(如bot)的行为模式是有差异的,考虑到用户的属性是可以伪造的,通过行为来了解用户的身份是合理的,这是更稳定的;基于传播的方法通常依赖于神经网络进行特征学习。然而,神经网络更注重特征的变换和聚合,而不能捕捉到传播本身的状态。
  基于这些考虑,本文提出了一种名为HG-SL的联合学习模型,不考虑新闻内容和用户身份,但能够通过全局和本地的用户传播行为在传播的早期阶段捕捉到真假新闻的区别。

模型

  具体来说,本文首先构建Hypergraph来描述用户的全局交互(HG)。由于每个超级边缘可以连接任意数量的实体,因此hypergraph有助于同时了解用户的偏好。利用HyperGNN和节点中心性编码进行超图学习,得到用户节点的嵌入表示。
  然后,对于每一个新闻,将传播状态整合到两个多头自注意模块中,从结构和时间两个方面提取新闻的局部表征序列。这使得本文的模型在学习过程中可以同时洞察用户和新闻的传播能力。
  最后,通过门控机制自适应地组合学习到的结构和时间局部传播特征以获得更具表现力的表示,并送入分类器中得到预测结果。
在这里插入图片描述

问题定义

  令 D = { d 1 , d 2 , . . . , D m } D=\{d_1,d_2,...,D_m\} D={d1,d2,...,Dm}表示新闻集合,参与新闻传播的用户集合定义为 U = { u 1 , u 2 , . . . , U n } U=\{u_1,u_2,...,U_n\} U={u1,u2,...,Un}
  在全局学习中,构建超图 G = ( U , E ) G=(U,E) G=(U,E),描述用户在新闻层面的全局交互,E表示超边集合。每个hyperedge的 e j e_j ej连接所有推特或转发第j个新闻 d j d_j dj的用户。
  在局部学习中,定义所有新闻传播级联序列和传播时间序列的集合为 C = { c 1 , c 2 , . . . , c m } C=\{c_1,c_2,...,c_m\} C={c1,c2,...,cm} S = { s 1 , s 2 , . . . , s m } S=\{s_1,s_2,...,s_m\} S={s1,s2,...,sm}。这两个序列中的item分别是每个新闻的传播级联序列和传播时间序列。在每个新闻对应的序列中,均为参加了该新闻传播的某个用户节点。
  在序列 c j c_j cj中,每个item包含了用户信息和该用户 c j , p c_{j,p} cj,p在传播树中的深度和子节点数,从而保留了结构特征。即 c j = { c j , 1 , c j , 2 , . . . , c j , k } c_j=\{c_{j,1},c_{j,2},...,c_{j,k}\} cj={cj,1,cj,2,...,cj,k}表示新闻 d j d_j dj的传播级联序列, c j , p = { ( u i ) , L i j , p , I i j , p ∣ u i ∈ U } c_{j,p}=\{(u_i),L_i^{j,p},I_i^{j,p}|u_i\in U\} cj,p={(ui),Lij,p,Iij,puiU} u i u_i ui表示该用户节点, L i j , p L_i^{j,p} Lij,p表示深度, I i j , p I_i^{j,p} Iij,p表示子节点数。
  在新闻 d j d_j dj对应的传播时间序列 s j s_j sj中,每个item则包含了用户信息和该用户参与新闻传播的时间戳,即 s j = { ( u i , t i j ) ∣ u i ∈ U } s_j=\{(u_i,t_i^j)|u_i\in U\} sj={(ui,tij)uiU}
  本文的任务就是通过学习超图 G G G、级联 c j c_j cj和序列 s j s_j sj来预测 d j d_j dj的标签。

学习过程

  在全局学习中,即超图的学习过程,作者引入了中心性编码作为衡量用户在网络中全局重要性的强信号,增强了神经网络的学习能力。由于简单图上的中心性指标如度中心性和接近中心性不适用于超图,本文将活跃度定义为超图中用户的中心性,活跃性即用户节点参与的超边总数。计算活跃度: A c t i = ∣ ξ i ∣ Act_i=|\xi_i| Acti=ξi,其中, ξ i \xi_i ξi表示有用户 u I u_I uI参与的超边。
  将节点中心性编码加入到初始化的节点嵌入表示中: x i 0 = x I i n i t + C e n i x_i^0=x_I^{init}+Cen_i xi0=xIinit+Ceni,然后通过超图上的Hyper-GNN学习节点表示,Hyper-GNN的学习过程不再赘述,有空我会单独写一篇讲。
  这样,我们就拿到了所有用户节点经过全图学习后的嵌入表示,接下来,我们需要根据每个新闻对应的传播级联序列和传播时间序列学习该新闻在两个角度(结构和时间)的local特征嵌入。
  这两个local序列的嵌入学习过程是一样的,以传播时间序列学习为例:
在这里插入图片描述
  该模块的输入是序列中每个用户经过全局学习后得到的嵌入表示和他们参与新闻传播的时间戳,由于时间戳不是连续的,我们使用参与的绝对顺序作为自我注意训练的位置信息,并将其编码为 t u j i tu_j^i tuji;将时间编码特征与全局学习嵌入concat起来,送入multi-head-self-attention中学习,然后再池化得到learned-sequence-embeding,公式为: A t t ( Q , K , V ) = s o f t m a x ( Q K ′ ′ d d / H ) V Att(Q,K,V)=softmax(\frac{QK^{''}}{\sqrt{d^d/H}})V Att(Q,K,V)=softmax(dd/H QK′′)V h q , j T = A t t ( o j T ′ W q Q T , o j T ′ W q K T , o j T ′ W q V T ) h_{q,j}^T=Att(o_j^{T^{'}}W_q^{QT},o_j^{T^{'}}W_q^{KT},o_j^{T^{'}}W_q^{VT}) hq,jT=Att(ojTWqQT,ojTWqKT,ojTWqVT) h j T = [ h 1 , j T ; h 2 , j T ; . . . ; h H , j T ] h_j^T=[h_{1,j}^T;h_{2,j}^T;...;h_{H,j}^T] hjT=[h1,jT;h2,jT;...;hH,jT] o j T = M E A N ( W A 2 σ ( W A 1 ( h j T ) + b 1 ) + b 2 ) o_j^T=MEAN(W_{A_2}\sigma(W_{A_1}(h_j^T)+b_1)+b_2) ojT=MEAN(WA2σ(WA1(hjT)+b1)+b2)  由于传播持续时间 ( t s j ; 1 ) (ts_j;1) (tsj;1)和从推到转发的平均响应时间 ( t s j ; 1 ) (ts_j;1) (tsj;1)有助于反映新闻dj的传播速度,因此将上述两个特征作为序列级时间特征。并入到得到的learned-sequence-embeding中,得到最终特征。

特征融合

  到这里,对于每个新闻帖子,我们得到了经过全局和局部学习后的两个特征 Z j S Z_j^S ZjS Z j T Z_j^T ZjT,分别对应传播级联序列和传播时间序列,作者使用了一个门控机制自适应地组合两种表示,这样做是合理的,因为它们处于一个相同的语义空间,门控的权重由神经网络学习得到: Z j = g Z j S + ( 1 − g ) Z j T Z_j=gZ_j^S+(1-g)Z_j^T Zj=gZjS+(1g)ZjT g = e x p ( W g ) σ ( W r Z j S ) e x p ( W g ) σ ( W r Z j T ) + e x p ( W g σ ( W r Z j S ) ) g=\frac{exp(W_g)\sigma(W_rZ_j^S)}{exp(W_g)\sigma(W_rZ_j^T)+exp(W_g\sigma(W_rZ_j^S))} g=exp(Wg)σ(WrZjT)+exp(Wgσ(WrZjS))exp(Wg)σ(WrZjS)  将融合得到的特征作为最终特征,送入分类器进行分类。

实验

  实验使用的数据集是Fakenewsnet中的政治和娱乐领域假新闻数据集,和原来的基于传播结构的检测算法相比,有了极大提升。
在这里插入图片描述  消融实验:-HG忽略全局学习,去除Hyper-GNN和全局中心性编码;-SL忽略局部学习,移除自关注模块和传播状态编码;- Structural SL忽略局部结构学习;-Temporal SL忽略局部时态学习;-节点中心性E删除全局中心性编码;-Structural E 移除本地结构编码;-Temporal E 移除本地时态编码;-Gated fusion 用加法代替门控融合。在这里插入图片描述

;