论文标题:A Deep Learning Model for Early Detection of Fake News on Social Media
日期:IEEE2020
#半监督、#伪标签、#可信度评估
一、基本内容
训练一个有监督模型和一个无监督模型,但是该工作不仅利用了新闻内容信息,还利用了用户对新闻的评论信息以及作者的可信度信息,使用的信息更为广泛,从而取得了更好的效果。
二、主要工作
(1)建立一个模型提取用户在评论中表达的观点;
(2)使用CredRank算法评估用户的可信度;
(3)建立一个参与新闻传播的用户的小网络。
以上三个步骤的输出作为新闻分类器SSLNews的输入,SSLNews由三个网络组成:共享的CNN、无监督的CNN和有监督的CNN。
三、模型框架
四个模块:意见提取模块、用户可信度评估模块、用户网络构建模块和分类器
提取 回复 和 用户特征,回复 用作 意见提取块的输入,用户特征 用作 可信度评估和网络构建块的输入。将意见提取块的输出和可信度评估块的输出连接起来,连接结果和网络N用作分类器SSLMEWS的输入。
1. Opinion extraction
使用GloVe作为网络的嵌入层,使用tanh作为激活函数。
这一网络的输出评论中表示的意见:1——作者同意给定的推文,0——不同意。
使用Sentiment140训练模型。
2. User’s credibility assessment
使用论文【M. A. Abbasi and H. Liu, “Measuring user credibility in social media,” International Conference on Social Computing, Behavioral-Cultural Modeling, and Prediction, pp. 441-448, 2013】中的(即CredRand算法)模型评估用户可信度。
研究基于用户的特征:
(1)用户账户是否是经过验证的账户;
(2)用户发布的状态数量;
(3)用户的地理定位是否启用;
(4)用户的粉丝数;
(5)用户关注的用户数量。
找到具有相似特征的用户,使用分层聚类方法将相似的用户聚合,用 s i m ( u i , u j ) = σ ( C ( u i ) , C ( u j ) ) sim(u_i,u_j )=σ(C(u_i ),C(u_j)) sim(ui,uj)=σ(C(ui),C(uj))确定相似性( C ( u i ) C(u_i ) C(ui)表示用户特征)。
在我们的模型中,使用Jaccard相似度评估用户之间的相似度: s i m ( u i , u j ) = ( C ( u i ) ∩ C ( u j ) ) / ( C ( u i ) ∪ C ( u j ) ) sim(u_i,u_j )=(C(u_i)∩C(u_j))/(C(u_i)∪C(u_j)) sim(ui,uj)=(C(ui)∩C(uj))/(C(ui)∪C(uj))。如果相似度超过阈值 t a u tau tau( t a u tau tau的值因域而异),则使用上述方法将相似用户聚集在一起。
使用以下公式分配集群的权重: ω C i = ∣ C i ∣ ∑ j ∣ C j ∣ ωC_i ={{\sqrt{|C_i |}}\over{∑_j \sqrt{|C_j |}}} ωCi=∑j∣Cj∣∣Ci∣,该值表示可信度与成员相关联。
3. User’s network
只考虑发布相关新闻文章n推文的用户的粉丝。网络构建的算法:
U
p
U_p
Up表示发表有关新闻n推文的用户的向量,
U
r
U_r
Ur表示回复推文的用户的向量。算法复杂度为
O
(
x
2
)
O(x^2)
O(x2)。
4. SSLNews
x
i
x_i
xi是输入,是之前三个网络(1、2、3)输出结果的连接。标签
y
i
y_i
yi仅存在于标记的输入中,仅仅对于这些输入计算交叉熵损失
l
i
l_i
li。
x
i
x_i
xi的预测标签是
y
i
′
y_i^{'}
yi′。
l
i
l_i
li和
l
i
′
l_i^{'}
li′的优化权重为
w
(
t
)
w(t)
w(t)。
共享CNN的前三个卷积层包含128(3×3)个滤波器,其他三个层包含256(3×3)个滤波器。无监督和有监督CNN的层都使用512(3×3)个滤波器、256(3×3)个滤波器和128(3×3)个滤波器。一个(2×2)最大池化用于所有池化层。
L
o
s
s
=
−
1
∣
B
∣
∑
i
∈
B
∩
S
l
o
g
f
s
o
f
t
m
a
x
(
z
i
)
[
y
i
]
+
w
(
t
)
∗
1
C
∣
B
∣
∑
i
∈
B
∣
∣
z
i
−
z
i
′
∣
∣
2
Loss=-{1\over |B|} ∑_{i∈B∩S}{logf_{softmax}(z_i )[y_i ] }+{w(t)}*{1\over C|B| }∑_{i∈B} {||z_i-z_i^{'} ||}_2
Loss=−∣B∣1∑i∈B∩Slogfsoftmax(zi)[yi]+w(t)∗C∣B∣1∑i∈B∣∣zi−zi′∣∣2
B表示学习过程中的微批量处理,S表示标记的输入集。
四、数据集
现实公开数据集:Politifact和Gossipcop