代码地址:https://github.com/gongleii/DFCN-RSP
摘要
深度聚类通过优雅地利用数据表示来寻找样本的划分,已引起广泛关注。最近,将自编码器(AE)与图神经网络(GNNs)结合,通过引入数据中隐含的结构信息,在聚类任务中取得了优秀的表现。然而,作者观察到大多数现有方法存在一些局限性:1)在实际的图数据集中,节点之间存在一些噪声或不准确的连接,这会干扰网络学习并导致偏差的表示,从而导致聚类性能不理想;2)缺乏动态信息融合模块,未能仔细结合和优化节点属性与图结构信息,进而学习到更一致的表示;3)未能充分利用两个分离视图的信息,以生成更稳健的目标分布。为了解决这些问题,作者提出了一种新方法,称为具有可靠结构保持的深度融合聚类网络(DFCN-RSP)。具体来说,引入了随机游走机制,通过度量节点之间的局部结构相似性来增强原始图结构的可靠性。该机制能够同时过滤掉噪声连接,并补充原始图中可靠的连接。此外,作者提供了一个基于变压器的图自编码器(TGAE),它可以利用自注意力机制与局部结构相似性信息逐层微调节点之间融合的拓扑结构。进一步地,作者提供了一种动态跨模态融合策略,结合了TGAE和AE学习到的表示。同时,作者设计了三元组自监督策略和目标分布生成度量,以探索跨模态信息。在五个公共基准数据集上的实验结果表明,DFCN-RSP在性能上优于现有的最先进的深度聚类算法。
引言
深度聚类在通过神经网络将数据划分为多个不重叠的组而不依赖手动标签的任务中取得了巨大成功,已成为聚类领域中不可或缺的一部分。与传统的聚类方法[1],[2],[3]不同,由于深度学习技术的强大能力,深度聚类方法逐渐成为解决数据标注问题的更自然和灵活的方式。此外,相关方法在许多应用中取得了显著成功,包括社交网络分析[4]、异常检测[5]、车辆再识别[6]和分子预训练[7]。
现有的深度聚类研究主要可以分为五类,即基于谱聚类的方法[8],[9]、基于子空间聚类的方法[10],[11]、基于生成对抗网络的方法[12],[13]、基于高斯混合模型的方法[14],[15]和基于自优化的方法[16],[17]。我们提出的方法属于最后一类。具体而言,早期的方法通过在自编码器(AE)架构中重构属性特征来学习低维空间中的数据表示。然而,由于节点属性的复杂性和非欧几里得图结构,大多数基于线性的方法无法有效地分析图结构数据[18],[19],[20]。最近,图卷积网络(GCNs)[21]在面向图的聚类任务中取得了巨大成功。例如,文献[19]提出了一种深度注意力嵌入图聚类(DAEGC)算法,该算法将节点属性和拓扑结构转化为紧凑的嵌入空间,然后通过自优化嵌入方法重构邻接矩阵。结构深度聚类网络(SDCN)[22]设计了双自监督策略和信息传递算子,将AE和GCNs集成到统一的框架中,以提高聚类性能。此外,一些先进的方法如MinCutPool[23]、AGAE[24]和ARGA[25],分别通过引入图池化策略和对抗学习技术来提高聚类性能。近年来,对比学习机制被广泛使用[26],[27];同时,基于图对比学习的聚类方法取得了显著发展,并引起了研究人员的广泛关注[28],[29],[30],[31]。
尽管上述方法通过集成节点属性和图结构信息获得了有希望的性能,但仍存在一些局限性。首先,大多数面向图的方法很少考虑优化原始图结构;然而,在实际的图数据集中,我们观察到节点之间存在一些噪声或不准确的连接,其中两个具有不同真实标签的节点保持着连接关系。这些不可靠的关系会干扰网络学习,并导致偏差的表示。其次,现有算法缺乏动态跨模态融合机制,未能仔细集成节点属性和图结构信息以学习一致的表示。来自两个信息源的表示通常是直接拼接或对齐的,导致信息交流不足。第三,在大多数现有文献中,算法未能充分利用两个信息源生成目标分布来指导网络学习。这使得学习到的图表示缺乏精确性和全面性。因此,节点属性和图结构之间的协调被切断,从而导致聚类性能不理想。
基于这些观察,作者提出了一种新方法,称为具有可靠结构保持的深度融合聚类网络(DFCN-RSP),它是作者深度融合聚类网络(DFCN)[32]的改进版,旨在解决上述问题。作者方法的关键点有三方面:1)通过随机游走机制优化原始图,可以同时过滤掉噪声连接,并补充可靠连接;2)提出了基于变压器的图自编码器(TGAE),它使用更可靠和更具信息性的拓扑结构捕捉每一层节点之间的精确连接关系,从而更好地进行表示学习;3)设计了一种动态跨模态融合策略,将结构信息和节点属性融合,以实现一致的表示学习并生成稳健的目标分布。具体而言,首先引入随机游走机制,通过度量节点之间的局部结构相似性来增强原始图结构的可靠性。通过这种方式,原始图中的噪声连接可以被过滤,同时一些可靠的连接也能得到补充。然后,受到变压器机制[33]的启发,提供了一个TGAE。将节点属性和结构信息结合起来,生成一个融合的拓扑结构,可以在每一层中实现信息的传播和高阶节点的聚合,从而提高表示学习和聚类性能。
在图1中,作者可视化了DFCN[32]中的图自编码器(GAE)和作者改进的TGAE在ACM数据集上的学习到的结构嵌入。可以观察到,作者提出的TGAE学习到了更具区分性的节点表示。此外,作者开发了一种动态跨模态融合策略,将来自图结构和节点属性的两源信息进行融合,以实现一致的表示学习。之后,为了生成更稳健的目标分布,作者估计了节点与预先计算的聚类中心之间的相似度,并在潜在嵌入空间中使用学生t分布[34]。最后,作者设计了一个三元组自监督框架,指导融合部分、AE和TGAE的学习过程,以优化网络。
作者在本工作的贡献总结如下:
- 提出了一种新方法DFCN-RSP,它是首个根据局部结构相似性提供加权邻接矩阵的算法,并通过更可靠和更具信息性的拓扑结构进一步提高了GCNs的效率,从而捕捉到每一层节点之间的一阶和高阶关系。
- 为了优化原始邻接矩阵并提升聚类性能,通过随机游走机制探索了加权邻接矩阵的生成,能够同时过滤掉噪声边并补充原始图中的可靠边。然后,TGAE提取的一阶和高阶节点关系被用于逐层微调全局拓扑结构,以寻找更具信息性的特征。
- 设计了一个动态跨模态融合模块,通过融合来自AE和TGAE的表示,来改善模型的泛化能力,并实现一致的表示。
- 在五个公共基准数据集上的实验结果验证了DFCN-RSP相比现有方法取得了优越的性能。
方法
该方法在DFCN [32]的基础上进行了改进,旨在通过随机游走技术解决由于不准确的图结构导致的偏差和弱引导问题。从图2的示意图中可以看出,提出的DFCN-RSP主要包含三个部分:通过随机游走机制优化的加权邻接矩阵、TGAE和动态信息融合模块。需要注意的是,三元组自监督策略的细节与DFCN类似,可以在相关文献[32]中找到。
加权邻接矩阵生成
在实际的图数据集中,观察到节点之间存在一些噪声或不准确的连接,其中两个具有不同真实标签的节点仍然保持连接关系。这些不可靠的关系会干扰网络学习,导致偏差的表示,从而影响聚类的性能。为了解决这个问题,引入了随机游走机制,通过衡量节点之间的局部结构相似性来增强邻接矩阵的可靠性和丰富性。它能够同时过滤掉噪声连接并增加一些可靠的连接,如图3所示。
具体而言,首先通过从中心节点开始进行k步随机游走,进行t次,构建t个随机游走矩阵 F={F1,F2,…,Ft},其中 Fi∈RN×N,k和t是两个预定义的超参数。然后,通过计算公式(1)得到平均的随机游走矩阵 Fˉ={f1,f2,…,fN}∈RN×N,并用它来构建加权邻接矩阵。这样,Fˉ 可以很好地提取并保留每个中心节点的k阶邻域信息。
之后,通过公式(2)根据 Fˉ 生成加权邻接矩阵 A~=(a~ij)N×N∈RN×N,其中 \tilde{a}_{ij} = f_i f_j^T 表示节点i与节点j之间的局部结构(即k阶邻域关系)相似度。构建的加权邻接矩阵 A~ 具有以下两个优点:一方面,它能够从高阶样本中挖掘更多潜在的有用信息,从而构建一个更具信息性的图结构;另一方面,它可以过滤掉噪声连接,减轻学习中的偏差表示问题。
其中,N(⋅)表示归一化操作。
基于Transformer的图自编码器(TGAE)
在大多数当前基于GCN的自编码器(AE)中,邻居信息的聚合过程可以表示如下:
其中,l 表示第l层,非线性激活函数 σ可以是 Tanh 或 ReLU。单位矩阵 I∈RN×N表示每个节点的自环,D=diag(d1,d2,…,dN)∈RN×N,且 d_i = \sum_{j=1}^N a_{ij}。W(l) 是第l层的可学习权重矩阵,Z(l) 是第l层的潜在表示。方程(3)意味着一阶邻居信息在表示学习中起着重要作用。按照这一原理,浅层无法捕捉到非局部信息,从而导致学习的表示不够表达,聚类性能不理想。因此,作者提出了 TGAE,它能够在每一层的潜在空间中捕捉高阶关系。接下来将分析 TGAE 的编码器和解码器。
-
TGAE的图编码器:为了应对上述问题,将 Transformer 机制引入到 GAE 中进行非局部自注意力学习。这个学习过程主要包括三个步骤: (1)基于样本相关性的拓扑生成:遵循 Transformer 架构[33],通过以下计算获得第l层的键矩阵 K(l)∈RN×d(l)和查询矩阵 Q(l)∈RN×d(l):
其中,表示第l层的可学习网络参数,σ 是非线性激活操作(如 Tanh)。然后,通过下式计算每对节点之间的点积注意力,以生成基于样本相关性的拓扑矩阵 G(l):
-
(2)双源结构信息融合:学习到的基于样本相关性的拓扑矩阵 G 仅依赖于样本对的特征相似性。为了进一步探索更准确的连接关系并提高其可靠性,将归一化的邻接矩阵 A~ 作为先验信息并引入它来细化 G。具体而言,通过 Hadamard 乘积操作[52]将 A~与 G 结合,如下所示:
其中,G~ 表示结合了结构和属性信息的融合拓扑矩阵。
- (3)通过 Transformer 进行图编码:之后,将键矩阵 K(l)作为输入,并通过以下计算获得第l层的值矩阵 V(l)∈RN×d(l):
其中,Dropout(·) 是用于数据增强的 Dropout 层。此外,通过以下公式提取第ll层的潜在嵌入矩阵 Z(l)∈RN×d(l):
与 DFCN 中的 GAE[32] 相比,所提出的 TGAE 可以在每一层探索一阶和长程关系,从而提高学习表示的区分度。
- 2.TGAE的图解码器:遵循 DFCN[32],将从相应的 AE 和 TGAE 中学到的属性嵌入矩阵 ZAE∈RN×d′和图嵌入矩阵 ZTGAE∈RN×d′融合,以通过以下计算获得初始融合的嵌入矩阵 ZI∈RN×d′,其中 d′是融合嵌入的维度:
其中,α是一个可学习的参数,用于平衡 Z_{AE} 和 Z_{TGAE} 的重要性,可以通过梯度下降算法自动调整。最后,通过以下计算获得聚类嵌入矩阵:
其中,Z~是输入到 AE 和 TGAE 的两个解码器的输入。
注意,提出的基于 AE 的框架是对称的,因此在解码器中,第h层的表示学习过程可以表示为:
其中,G^(h)∈RN×N和 V^(h)∈RN×d(h)分别表示图解码器第h层的融合拓扑矩阵和值矩阵。
损失函数与训练
在提出的 DFCN-RSP 中,整体损失函数包含两个部分,即重构和聚类过程:
其中,L_{AE}、L_{TGAE} 和 L_{KL} 分别表示 AE 和 TGAE 的信息重构损失以及聚类损失。预定义的超参数 β用于调整上述学习过程的相对重要性。
算法1中总结了所提出的 DFCN-RSP 的学习过程。
实验
数据集
实验结果
这一篇同样是在DFCN的基础上优化的方法,思路和性能都不错。。。