Bootstrap

【存在大量非结构化网状数据的领域的图算法与知识图谱】

图算法广泛应用于存在大量非结构化网状数据的领域,如社交网络、金融、交通、搜索等,是一种非常简单易用且有效的机器学习算法,算法的思想也非常容易理解。而网络安全领域在风控、威胁情报方面也有很多非结构化网状数据,所以也会用到图算法。

1 图算法

在现实世界中,有种关联关系难以用数据库的表结构来表示,比如微博的粉丝关系、偶像剧中的N角恋、多个域名之间的注册关系等,于是图这种古老的数据结构就派上了用场。一般认为,如果给图的每条边规定一个方向,那么得到的图称为有向图,其边也称为有向边。在有向图中,与一个节点相关联的边有出边和入边之分,而与一个有向边关联的两个点也有始点和终点之分。相反,边没有方向的图称为无向图。

微博中的好友关注关系就是典型的有向图,因为关注是有方向性的,比如我关注了钟丽缇,但是钟丽缇不一定关注了我。假定关注关系如下描述:

·A关注了C;
·B关注了A;
·C关注D;
·D关注了A和B。

在这里插入图片描述

D关注了两个人,所以他的出度为2,D被1个人关注,所以他的入度为1。
图的聚类算法,最简单的一种实现叫做连通分支。所谓连通分支,指的是图中由边连接在一起的一组顶点,不要求顶点之间必须两两相连,但是连通分支的任意两个顶点之间,至少存在一条路径,计算连通分支时不区分有向图和无向图。
在这里插入图片描述

2 知识图谱

当你在百度搜索“孙悟空的师傅”时,会直接展现出唐僧和菩提老祖的百度百科介绍。
当你拿起手机搜索“全聚德”时,会自动展现你附近的全聚德店的位置。
这是因为百度搜索通过知识图谱建立实体之间的属性与关系,让搜索引擎更懂用户的意图,直接解答用。
这是因为百度搜索借助于知识图谱,结合用户行为信息,为用户提供更符合当前场景的搜索结果。
当你在百度搜索“达芬奇”时,除了会展现达·芬奇相关的信息,同时也会自动展现关注达·芬奇的人同时也关注的其他人物以及作品。
这是因为百度搜索通过知识图谱建立事物之间的关联,扩展用户搜索结果,发现更多内容。
知识图谱本质上可以认为是图的一种具体应用,它大量集成了互联网上的各类数据,从而进一步挖掘出了数据的潜在联系与价值。在安全领域应用知识图谱,可以挖掘数据之间潜在的联系,结合这些潜在的联系可以大大扩展我们的数据分析思路。

;