Bootstrap

【网络流量识别】【聚类】【一】模糊聚类FCS和GA—网络安全网络流量功能的模糊聚类

来自IEEE的文章:网络安全网络流量功能的模糊聚类。

链接:安全|网络流量功能的模糊聚类IEEE 会议出版物|伊 · X普洛尔

目录

摘要

第一节:introduction

第二节:模糊C均值聚类法(FCM)

 2.1 网络流量数据集

2.2 功能子集选择

2.3 模糊C均值聚类

 2.4 使用模糊聚类进行入侵检测

 第三节:测试和结果

 总结


摘要

许多当前的入侵检测系统(IDS)无法识别未知或者变异的攻击模式,或无法在移动网络所需的动态环境中运行。因此,寻找合适的管理入侵检测系统的新方法变得尤为重要。

本文采用TCP数据包属性的模糊聚类,提出了一种新型的入侵检测方法。并且此方法比其他的模糊聚类技术相比,也具有很好的稳健性。

第一节:introduction

IDS(入侵检测系统)能够识别网络入侵,包括恶意攻击,未经授权的访问和其他异常行为。网络巨大流量带来的大数据分析为识别入侵提供了一种很有希望的方法。

大多数IDS使用监督或者无监督模式识别技术来构建分类器,然后用于入侵检测。这些方法包括统计模型、免疫系统方法、神经网络、状态过渡分析和遗传算法。这些技术不能识别复杂或未知的攻击,也无法适应移动网络等动态环境聚类提供了一种分类技术,但其中许多方法仅识别基本攻击,无法识别复杂攻击和未知攻击。

模糊聚类已证明优于传统聚类,克服了未知攻击模式和动态环境的限制。改进的模糊均值c聚类法已尝试纳入径向基函数(RBF)、模拟退火(SA)和粒子群优化(PSO)。所有这些方法均受到识别率低、误报率高和无法识别未知攻击模式的影响。

本文提出新方法,将遗传算法维度降低技术经过修改的模糊C均值聚类(FCM)相结合,将TCP数据包分为正常和入侵包。测试表明,其具有优秀的识别率和稳健性,并且没有假阳性率。

第二节:模糊C均值聚类法(FCM)

 2.1 网络流量数据集

KDDCup1999数据集已成为测试入侵检测安全系统的实际标准。

数据集由4GB压缩TCP转储数据组成,包括在网络流量收集的500万条连接记录。每个记录都包含从TCP连接数据中提取的41个特征。这些功能包括三个类别:单个TCP 连接的基本功能、连接中的内容功能以及使用两秒时间窗口的误差率功能。每个记录还包括一个标志,指示它是正常的还是入侵的。异常连接标记为模拟攻击类型。

KDD数据集包含24种已知类型的模拟攻击。此外,还包括14种未知类型的攻击,以测试检测以前未知或变异的攻击模式的能力。

2.2 功能子集选择

模糊C均值聚类算法(FCM)计算每个数据项到每个聚类中心点的距离。数据和中心都在D维空间中,d是用于聚类的TCP包中的功能数。因此,为了减少聚类的复杂性,最好减少功能数量。由于基于统计和基因聚类的传统尺寸减少技术具有局限性。因此,基因算法(GA)用于特征子集选择,每个染色体对应于候选的特征子集。每个染色体被编码为0和1的字符串,位数等于功能总数,每个位代表特定功能A,GA确定用于训练规则集的最佳功能集。

2.3 模糊C均值聚类

与传统聚类方法不同,模糊C均值聚类(FCM)允许一个数据项属于多个聚类,属于聚类的数量表示为一个模糊集。

本文提出的方法将数据划分为 c 个类Z是一个包含数据的向量,例如Z=\left \{ z_{1},z_{2},\cdots ,z_{k} \right \},每个元素z(k)都是挑选出来的特征子集中的d维特征数据包的第k个元素。向量U=\left [ u_{ik} \right ]是Z的模糊c-划分,是包含于第 i 个簇中每个数据项 zk 对应的模糊隶属度函数。此向量随机初始化为U^{(0))}以开始该过程,模糊分区矩阵U是迭次调整,直到U变得小于预定阈值。V是聚类中心或者中心向量,例如V=\left \{ v_{1},v_{2},\cdots ,v_{k} \right \}

任何数据项zk和聚类中心vi之间的平方距离使用A-范数作为内积距离确定:

 A-范数是一个标准化数据集的矩阵。在实践中,A-范数可以是欧几里德范数、对角范数或马氏范数。

与每个平方误差相关的权重是(u_{ik})^{m},这里的权重是加权指数,或者模糊参数。m控制平方误差的权重,从而确定聚类的模糊性。m的值越大,成员身份越模糊。m可能是大于等于1的任意值。测试表明,m介于[1.5, 3]之间会产生良好的效果。

模糊聚类通过对目标函数的优化迭代完成。在每次迭代中,成员函数u_{ik}和聚类中心v_{i}使用下式更新:

 2.4 使用模糊聚类进行入侵检测

一旦模糊集群被建立并标记为正常或恶意,所构建的入侵检测系统就已准备好识别传入的 TCP 数据包。对于每个传入的数据包,系统将确定其在每个簇u_{ik}中的成员身份。如果成员超过了预定阈值\delta,对于任何被标记为恶意的聚类簇,该包都会被阻止,并且发出警报,识别该包和攻击类型。

 第三节:测试和结果

 本文的入侵检测方法使用KDDCup1999数据集进行测试,基因算法子集使用由大概500,000个连接记录的10%数据组成的数据集子集。特征子集的选择将原来的41个特征减少到8个的特征子集。FCM算法使用8个特征来创建5个模糊集群4个用于攻击类别的识别,1个用于正常包

该系统使用 KDD 数据集中的全部500万个连接记录进行了测试。数据集包含培训数据中未存在的 14 种入侵攻击类型,以测试识别未知攻击模式的能力。新的 IDS 成功识别了大多数入侵攻击,成功率为 98%,误报率仅为 2%

运行了第二个测试,其中创建了 26 个组集:24 种已知类型的模拟攻击各一个,未知类型的攻击一个,普通数据包一个。这导致了 99% 的成功率和只有 1.5% 的误报。虽然此测试显示了更好的准确性,但在确定 26 个组集中每个组中每个数据包的模糊成员数时,计算过多

下表提供了模糊遗传IDS与其他方法的比较,也使用 KDD 数据集。拟议的FCM系统具有最佳的入侵检测率和误报率,此外,新系统能够正确识别培训数据中未出现的14种入侵。这显示了 FCM 方法的稳健性。

 总结

本文采用遗传算法降低维度技术模糊C均值聚类(FCM)相结合的方法(前者用于特征子集的选择,后者用于聚类),以KDDCup1999数据集作为数据来源,对恶意数据包进行识别。实验结果证明,使用5个簇无法识别2%具有真实环境性能的恶意数据包;将集群数量增加到26个时,可以改进方法对于攻击的识别,但计算时间花费巨大。

文中提出的方法可以识别大多数攻击,而且能够确定未知的攻击模式。

需要进一步研究:

(1)确定集群的最佳数量,以及如何划分他们以提高性能而不影响计算时间;

(2)测试特征子集;

(3)减少特征数量将降低FCM算法的复杂性;

(4)进一步测试簇中的成员阈值,以确定识别恶意数据包的最佳方法。

;