Bootstrap

社区发现算法 - Fast Unfolding(Louvian)算法初探

1. 社团划分

0x1:社区是什么

在社交网络中,用户相当于每一个点,用户之间通过互相的关注关系构成了整个网络的结构,在这样的网络中,有的用户之间的连接较为紧密,有的用户之间的连接关系较为稀疏,在这样的的网络中,连接较为紧密的部分可以被看成一个社区,其内部的节点之间有较为紧密的连接,而在两个社区间则相对连接较为稀疏,这便称为社团结构。如下图,红色的黑色的点集呈现出社区的结构,

用红色的点和黑色的点对其进行标注,整个网络被划分成了两个部分,其中,这两个部分的内部连接较为紧密,而这两个社区之间的连接则较为稀疏。

如何去划分上述的社区便称为社区划分的问题。

(Newman and Gievan 2004) A community is a subgraph containing nodes which are more densely linked to each other than to the rest of the graph or equivalently, a graph has a community structure if the number of links into any subgraph is higher than the number of links between those subgraphs.

这句话很明确地说明了在什么业务场景下可以使用社区发现算法:

1. 即我们需要先确定要解决的业务场景中,存在明显的聚集规律,节点(可以是抽象的)之间形成一定的族群结构,而不是呈现无规律的随机分散;
2. 同时另一方面,这种聚集的结构是“有意义的”,这里所谓的有意义是指这种聚集本身可以翻译为一定的上层业务场景的表现

0x2:社区划分的出发点和意图

直观地说,community detection的一般目标是要探测网络中的“块”cluster或是“社团”community。

这么做的目的和效果有许多,比如说机房里机器的连接方式,这里形成了网络结构,那么,哪些机器可以视作一个“块”?进一步地,什么样的连接方式才有比较高的稳定性呢?如果我们想要让这组服务瘫痪,选择什么样的目标呢?

我们再看一个例子,word association network。即词的联想/搭配构成的网络: 

我们用不同的颜色对community进行标记,可以看到这种detection得到的结果很有意思。

这个网络从词bright开始进行演化,到后面分别形成了4个组:Colors, Light, Astronomy & Intelligence

可以说以上这4个词可以较好地概括其所在community的特点(有点聚类的感觉);另外,community中心的词,比如color, Sun, Smart也有很好的代表性(自动提取摘要)。

同时我们注意到,那些处在交叠位置的词呢,比如Bright、light等词,他们是同义项比较多的词。这个图也揭示出了这一层含义。

0x3:社区划分的思路概要

什么样的结构能成为团?一种很直观的想法是,同一团内的节点连接更紧密,即具有更大的density。

接下来的问题是,什么样的metrics可以用来描述这种density?Louvian 定义了一个数值上的概念(本质上就是一个目标函数),有了这个目标函数,就可以引出接下来要讨论的 method based on modularity optimization

要注意的,社区划分有很多不同的算法,本文讨论的 Fast Unfolding(Louvian)只是其中一种,而这种所谓的density密度评估方法也其实其中一种思想,不要固话地认为社区划分就只有这一种方法。

Relevant Link:

https://stackoverflow.com/questions/21814235/how-can-modularity-help-in-network-analysis 
http://iopscience.iop.org/article/10.1088/1742-5468/2008/10/P10008/fulltext/
https://www.researchgate.net/publication/1913681_Fast_Unfolding_of_Communities_in_Large_Networks?enrichId=rgreq-d403e26a5cb211b7053c36946c71acb3-XXX&enrichSource=Y292ZXJQYWdlOzE5MTM2ODE7QVM6MTAxOTUyNjc5NTc5NjY3QDE0MDEzMTg4MjE3ODA%3D&el=1_x_3&_esc=publicationCoverPdf
https://www.jianshu.com/p/4ebe42dfa8ec
https://blog.csdn.net/u011089523/article/details/79090453
https://blog.csdn.net/google19890102/article/details/48660239
《Fast Unfolding of Communities in Large Networks》

 

2. LOUVAIN算法模型

Louvain算法是一种基于多层次(逐轮启发式迭代)优化Modularity的算法。Modularity函数最初被用于衡量社区发现算法结果的质量,它能够刻画发现的社区的紧密程度。
同时,Modularity函数既然能刻画社区的紧密程度,也就能够被用来当作一个优化函数(目标函数),即将结点加入它的某个邻居所在的社区中,如果能够提升当前社区结构的modularity。则说明这次迭代优化是可接受的。
下面我们来讨论Louvain算法模型的核心组件。

0x1:Modularity的定义 - 描述社区内紧密程度的值Q

模块度是评估一个社区网络划分好坏的度量方法,它的物理含义是社区内节点的连边数与随机情况下的边数只差,它的取值范围是 [−1/2,1),其定义如下:

A为邻接矩阵,Aij代表了节点 i 和节点 j 之间 边的权重,网络不是带权图时,所有边的权重可以看做是 1;

是所有与节点 i 相连的 边的权重之和(度数),kj也是同样;

表示所有边的权重之和(边的数目),充当归一化的作用;

是节点 i 的社区, 函数表示若节点 i 和节点 j 在同一个社区内,则返回 1,否则返回 0;

模块度的公式定义可以作如下简化:

其中 Σin 表示社区 C 内的边的权重之和,Σtot 表示与社区 C 内的节点相连的边的权重之和。

上面的公式还可以进一步简化成:

这样模块度也可以理解是:

首先modularity是针对一个社区的所有节点进行了累加计算。

modularity Q的计算公式背后体现了这种思想:社区内部边的权重减去所有与社区节点相连的边的权重和,对无向图更好理解,即社区内部边的度数减去社区内节点的总度数。

可以直观去想象一下,如果一个社区节点完全是“封闭的(即所有节点都互相内部连接,但是不和社区外部其他节点有连接,则modularity公式的计算结果为1)”

基于模块度的社区发现算法,都是以最大化模块度Q为目标。可以看到,这种模型可以支持我们通过策略优化,去不断地构造出一个内部聚集,外部稀疏连接的社区结构

在一轮迭代后,若整个 Q 没有变化,则停止迭代,否则继续迭代,直至收敛。

0x2:模块度增量 delta Q

模块增益度是评价本次迭代效果好坏的数值化指标,这是一种启发式的优化过程。类似决策树中的熵增益启发式评价

代表由节点 i 入射集群 C 的权重之和;

代表入射集群 C 的总权重;

ki 代表入射节点 i 的总权重;

在算法的first phase,判断一个节点加入到哪个社区,需要找到一个delta Q最大的节点 i,具体的算法我们后面会详细讨论,这里只需要记住 delta Q的作用类似决策树中的信息增益评估的作用,它帮助整个模型向着Modularity不断增大的方向去靠拢。

 

3. LOUVAIN算法策略

Louvain算法是基于模块度的社区发现算法,该算法在效率和效果上都表现较好,并且能够发现层次性的社区结构,其优化目标是:最大化整个社区网络的模块度。

即让整个社区网络呈现出一种模块聚集的结构。

0x1:算法思想的联想

Louvain算法包括两个阶段,在步骤一它不断地遍历网络中的结点,尝试将单个结点加入能够使modularity提升最大的社区中,直到所有结点都不再变化。在步骤二,它处理第一阶段的结果,将一个个小的社区归并为一个超结点来重新构造网络,这时边的权重为两个结点内所有原始结点的边权重之和。迭代这两个步骤直至算法稳定。
从核心思想上来看,Louvain算法的分步迭代优化过程,和EM优化算法有异曲同工之妙。
同时有一个题外话值得注意,Louvain算法是一个迭代算法,每一轮迭代都会产出一个当前局部最优的社区结构,所以理论上,假如算法迭代了5次,我们可以得到5个不同粒度层次的社区结构,从业务场景上,这为我们发现不同的社区聚集提供了一个更灵活的视角。
 
关于社区发现算法可以应用在哪些领域,我也还在思考中,从这个算法的思想上来看,我倾向于认为社区发现算法比较适合发现一种"抽象泛共现模式",这种共现是一种泛化的共现,它可以是任何形式的共现,例如
1. 两台主机拥有类似的网络对外发包模式
2. 两台主机间拥有累计的event log序列
3. 两个攻击payload拥有类似的词频特征,可以认为是同一组漏洞利用方式 4. 在netword gateway上发现了类似的网络raw流量,也可以反过来用一直的label流量特征进行有监督的聚类 ..

社区发现可能可以提供一种更高层的视角来看待整体的大盘情况,具体的应用场景还需要不断的摸索。

0x2:关于启发式/贪婪思想的社区发现的进一步思考

社区发现算法,或者说在社区发现的项目中,很容易遇到的一个问题就是:“社区过大,将过多的outerlier包括到了社区中”,换句话说,社区聚类的过程中没有能及时收敛。

我们来看下面这张图:

如果按照启发式/贪婪思想进行”one-step one node“的社区聚类,O9、O10、O11会被先加入到社区D中,因为在每次这样的迭代中,D社区内部的紧密度(不管基于node密度还是edge得modularity评估)都是不断提高,符合算法的check条件,

;