中南大学学报(自然科学版)

DOI: 10.11817/j.issn.1672-7207.2016.07.020

基于改进模糊C均值聚类算法的云计算入侵检测方法

刘绪崇1, 2, 3,陆绍飞4,赵薇1, 2, 3,张悦1, 2, 3

(1. 网络侦查技术湖南省重点实验室,湖南 长沙,410138;

2. 网络犯罪侦查湖南省普通高等学校重点实验室,湖南 长沙,410138;

3. 湖南警察学院 信息技术系,湖南 长沙,410138;

4. 湖南大学 信息科学与工程学院,湖南 长沙,410082)

摘 要:

均值聚类算法(FCM)在云计算平台下的入侵检测中存在检测精度不高等问题,提出一种基于目标函数优化模糊C均值聚类算法的云计算入侵检测模型。该模型采用核函数增强FCM算法的寻优能力,根据 Mercer 核定义优化FCM算法的目标函数,使用拉格朗日数乘法求得聚类中心和隶属度矩阵,有效降低算法的复杂度。研究结果表明:所提出的基于目标函数优化的FCM算法与传统的FCM算法相比,对云计算网络入侵检测的准确率较高,具有更好的收敛性能。

关键词:

云计算网络入侵检测模糊C均值聚类目标函数优化拉格朗日数乘法

中图分类号:TP393.08          文献标志码:A         文章编号:1672-7207(2016)07-2320-06

A cloud computing intrusion detection with objective function optimization based on fuzzy C-means clustering algorithm

LIU Xuchong1, 2, 3, LU Shaofei4, ZHAO Wei1, 2, 3, ZHANG Yu1, 2, 3

(1. Key Laboratory of Network Investigation Technology of Hunan Province, Changsha 410138, China;

2. Key Laboratory of Network Crime Investigation in Hunan Ordinary Colleges and Universities, Changsha 410138, China;

3. Department of Information Technology, Hunan Police Academy, Changsha 410138, China;

4. College of Computer Science and Electronic Engineering, Hunan University, Changsha 410082, China)

Abstract: Considering that standard fuzzy C-means clustering algorithm’s detection accuracy is not high in the cloud intrusion detection applications, a cloud computing intrusion detection model was proposed based on kernel fuzzy C-means clustering algorithm. Firstly, kernel functions were used to increase the capacity optimization of fuzzy C clustering algorithm, and then Mercer nuclear-defined objective function of fuzzy C clustering algorithm was optimized. At last, Lagrange multiplication was used to obtain clustering center and membership matrix so that the complexity of the proposed algorithm could be reduced effectively. The results show that the proposed objective function optimization based on kernel FCM algorithm has higher accuracy for cloud computing network intrusion detection and better convergence performance compared to the traditional FCM algorithm.

Key words: cloud computing network; intrusion detection; fuzzy C means clustering; objective function optimization; Lagrange multiplication

随着全球逐渐进入互联网时代,网络安全问题也逐渐变得越来越突出。云计算是一种在互联网基础上新研究的计算方式,通过互联网的传输为用户提供各种虚拟资源[1]。越来越多的人开始研究利用云计算的计算能力对互联网安全检测设备的海量分析结果进行聚类分析,并得到分析结果之间的本质关系,重新模拟正确的网络入侵过程,使得互联网管理人员能够对入侵过程进行分析,修补网络漏洞。互联网入侵检测分为误用检测、异常检测和混合检测[2]。孙文静等[3]根据误用检测的定义提出了入侵检测的规则,并最终根据这些规则构建入侵检测框架。基于误用检测的入侵检测系统准确率高且误检率小,但是其最大的缺陷在于无法检测到未知的攻击。为此,人们提出了基于异常检测的入侵检测算法。异常检测是用于检测与正常行为不同的互联网事件,可以不依赖制定的检测规则而检测到未知的攻击。傅涛[4]提出了一种基于互联网异常的实时入侵检测模型,用于分析基于协议的攻击和多维网络数据流。陈友[5]提出了实时的轻量级入侵检测系统,该系统利用行为模式和数据挖掘技术自动检测网络中的协同攻击。人工神经网络在入侵检测中可以将不完整的数据进行概括并能够分辨出正常和入侵2种状态。周丹[6]提出3层神经网络的入侵检测系统,系统中用到的特征向量由9个网络特征组成,但该系统的入侵检测准确度非常低。随后,李振美[7]提出了基于多层感知神经网络的入侵检测系统,结果表明多个隐层的IDS能够提高入侵检测的精度。ELHAG等[8]提出了利用遗传算法来选择网络特征以确定最佳的参数,并结合模糊算法进行入侵检测,发现利用遗传算法进行特征选择可以提高IDS的检测精度。田新广等[9]提出了基于聚类分析的无监督入侵检测算法,通过对未标识的数据进行训练进行入侵检测,实现了对新型和未知攻击的检测。混合检测通过结合误用检测与异常检测2种算法的优点来提高IDS的性能,它既可以检测已知攻击,也能检测未知攻击。易鸿[10]结合贝叶斯算法、人工神经网络和决策树分类器3种算法,分别利用3组独立的数据作为输入,并通过独立的分类器输出,同时结合多重融合技术,利用每个分类器的优点,提高了 IDS的整体性能。本文作者针对标准FCM算法在云计算网络入侵检测中存在的缺陷,提出一种基于目标函数优化FCM算法的云计算入侵检测模型,并进行实验仿真,以验证改进策略的有效性。

1 模糊C均值聚类算法的缺陷分析

模糊C均值聚类算法(FCM)[11]是目前普遍使用的一种聚类算法,该算法是在硬C均值(HCM)算法[12]的基础上建立的。硬C均值算法是将数据集进行划分的传统算法,能够聚类设置成超椭球结构数据[13]

         (1)

其中:J1为目标函数;,为该算法的聚类中心。HCM算法的具体流程如下[14]

1) 初始化。指定分类数c(2≤c≤n,n为聚类数量),设为停止迭代的阈值,初始化聚类中心,并设计数器

2) 根据下式计算或更新划分矩阵

      (2)

3) 根据下式更新聚类中心;

       (3)

4) 若,则算法中断并输出U和V;否则,定义b=b+1,接而执行步骤2)。

而模糊C均值聚类算法是在HCM算法的基础上对规则进行模糊化操作,通过对各个样品和各个聚类中心之间的距离差值求平方,然后求得类平方J1的加权和误差目标函数J2

       (4)

通用表达式为

      (5)

其中:,为加权指数。FCM算法的具体流程如下。

1) 初始化。指定分类聚类c (2≤c≤n,n为数量),定义迭代停止阈值,将聚类中心初始化,定义迭代计数器b=0。

2) 根据下式计算或更新划分矩阵

   (6)

3) 根据下式更新聚类中心

        (7)

4) 若,则算法终止并输出U和V,否则定义b=b+1,重新执行步骤2)。

为了对FCM的聚类效果进行分析,采用K均值聚类算法进行对比分析。

K均值算法[15]首先随机选取k个点作为初始聚类中心,然后计算各个数据对象到各聚类中心的距离,把数据对象归到离它最近的那个聚类中心所在的类;对调整后的新类计算新的聚类中心,若相邻2次的聚类中心没有任何变化,则说明数据对象调整结束,聚类准则函数Jc已经收敛。该算法框架如下:

1) 给定规模为n的数据集,令I=1,选取k个初始聚类中心(j=1, 2, 3, …, k)。

2) 计算每个数据对象与聚类中心的距离(i=1, 2, 3, …, n; j=1, 2, 3, …, k)。若满足

3) 计算k个新的聚类中心:

4) 判断。若 (j=1, 2, 3, …, k),则,返回步骤2);否则,算法结束。

选择3组标准数据IRIS数据集作为测试样本,并对模糊C均值聚类算法(FCM)和K均值聚类算法(K-means)进行仿真,目标函数随迭代次数变化的趋势如图1所示。

从图1可见:随着迭代次数的增加,目标函数值都可以达到期望值,但模糊C均值算法的收敛速度要明显比K均值聚类算法的高。

数据集合中的噪声对整个聚类划分过程影响较大,目前很多算法或者对噪声不进行处理,这样,噪声影响了整个数据集合的划分;或者对噪声处理的结果不令人满意,对噪声数据处理过于复杂或者没有实质性降低噪声的影响。这些都导致模糊C均值聚类算法在实际应用中存在一些不足。

2 基于改进模糊C均值聚类算法的云计算入侵检测模型

2.1  基于核函数的目标函数优化

引入核函数,以增强模糊C聚类算法的寻优能力。

图1  2种聚类算法的仿真对比结果

Fig. 1  Simulation results of two kinds of comparative clustering algorithm

假设高维空间上的聚类中心能在原空间上找到原像,则目标函数变为

       (8)

由 Mercer 核定义可得

       (9)

于是,改进模糊C聚类算法的目标函数可变为

  (10)

使用拉格朗日数乘法来求该方法的聚类中心和隶属度矩阵的迭代公式:

   (11)

            (12)

显然,式(12)并不能直接得到。利用核映射的定义,对式(12)两边同时乘以,可得

       (13)

所以,改进模糊C聚类算法流程如下。

1) 初始化。给定加权指数m,聚类类别数c (2≤c≤n),设置所选取核函数的参数值,设定迭代停止阈值,初始化隶属度矩阵,迭代计数器b=0。

2) 求出

3) 更新隶属度矩阵

4) 若 (其中,为某种适合的范数),则停止更新隶属度矩阵U,否则令U=U+1,转向步骤2)。

若核函数选用高斯径向基函数(),则改进模糊C聚类算法的目标函数变为

          (14)

此时,由拉格朗日数乘法得到的聚类中心和隶属度矩阵U简化为:

          (15)

             (16)

标准模糊C均值聚类算法的划分方式基于如下准则:每个数据对象p到其对应的簇中心的距离之和E最小。其中,E的计算式为

           (17)

其中:oi为聚类簇C i的中心;dist为距离函数;E为所有数据对象p到其对应的数据对象距离之和的最小值。当k=1时,该算法的时间复杂度为O(n2)。而加入核函数后,当选择第i个初始中心点,其中,算法时间复杂度t计算式为

        (18)

第i个初始中心点的时间复杂度Ti

           (19)

算法的时间复杂度O(T)为

          (20)

当m≤k且时,,即算法的时间复杂度为。综上可见:加入核函数后,模糊C均值聚类算法的算法复杂度为,比有所 降低。

2.2  基于改进模糊C均值聚类的云计算入侵检测模型

将本文提出的改进FCM算法应用于云计算平台的网络入侵检测中。具体的检测流程如下。

1) 采用winpcap软件监听云计算网络中采集的传输数据,从而获得网络数据包。本文提出的基于改进FCM算法的入侵检测就是基于这些数据包进行分析的。

2) 对这些数据包进行数据预处理操作,即先对网络数据包进行标准化操作,再将网络数据包进行正规化操作。

在对网络数据包进行数据预处理操作后,就可以采用本文提出的改进FCM算法对其进行聚类分析。通过聚类分析,数据集合被划分为大小不一的多个数据集合。由于一般网络数据包中入侵活动只占整个网络活动的很小一部分,因此,依据数据集的大小,粗略地将数据集合划分为正常和入侵2部分。

3 算法性能仿真

为了验证本文所提出的改进算法的有效性,首先对改进算法进行收敛性分析。选择2组标准IRIS数据集作为测试样本,对模糊C均值聚类算法和改进的模糊C均值聚类算法进行仿真。目标函数随迭代次数变化的趋势如图2所示。

图2  改进算法的收敛性分析结果

Fig. 2  Convergence analysis results of the improved algorithm

然后,选用数据集KDD对其进行仿真实验。KDD99数据主要包括1种正常数据和4种攻击类型。这4种攻击类型为:DoS,攻击者试图阻止合法用户使用一项服务;R2L,攻击者没有访问主机的权限,试图访问该主机;U2R,攻击者拥有部分访问的权限,试图获得更高的用户权限;Probe,攻击者试图获得目标主机的信息。

采用KDD99数据集中的50万条日志数据进行仿真实验。实验中的入侵检测训练样本信息见表1。分别采用所提出的改进FCM算法和标准FCM算法针对单一攻击类型进行入侵检测,检测结果如表2所示。

表1  KDD入侵检测训练样本描述

Table 1  KDD intrusion detection training sample description

表2  单一攻击类型下的入侵检测结果

Table 2  Intrusion detection results under a single attack type

从表2可见:在单一攻击类型下,改进FCM算法的检测率要比FCM算法的高,其误报率比FCM算法的低。为保证实验的严谨性,再次进行单一攻击类型的入侵检测,结果如表3所示。

为了验证改进的FCM算法对未知入侵的检测能力,在测试数据集中加入DAPRA99检测数据集中的随机7种入侵类型(随机分为4个数据集D1,D2,D3和D4)。2种算法的入侵检测结果如表4所示。

再次执行1次未知攻击类型的入侵检测,以保证实验的严谨性,其检测结果如表5所示。

表3  第2次单一攻击类型下的入侵检测结果

Table 3  Intrusion detection results of the second single attack types

表4  未知攻击类型下的入侵检测结果

Table 4  Intrusion detection results under unknown attack type

表5  第2次未知攻击类型下的入侵检测结果

Table 5  Intrusion detection results of the second unknown attacks Types

从表4和表5可以看出:无论是单一攻击类型还是未知入侵类型,与传统的FCM算法相比,本文提出的基于核函数目标函数优化的FCM算法对云计算网络入侵检测的准确率较高,具有更好的收敛性能。

4  结论

1) 针对标准模糊C均值聚类算法在云计算网络入侵检测中存在的缺陷,提出了一种基于核函数目标函数优化模糊C均值聚类算法的云计算入侵检测模型。

2) 与传统的FCM算法相比,本文提出的改进FCM算法在对已知攻击类型和未知攻击类型的云计算网络进行入侵检测时,能够取得较高的准确率和较好的收敛性能。

参考文献:

[1] 杨雅辉, 黄海珍, 沈晴霓, 等. 基于增量式GHSOM神经网络模型的入侵检测研究[J]. 计算机学报, 2014, 37(5): 1216-1224.

YANG Yanghui, HUANG Haizhen, SHEN Qingni, et al. Research on intrusion detection based on incremental GHSOM[J]. Chinese Journal of Computers, 2014, 37(5): 1216-1224.

[2] WANG Lina, WANG Tingting. Application of network intrusion detection based on two-steps fuzzy clustering[J]. Microelectronics & Computer, 2014, 31(3): 70-74.

[3] 孙文静, 钱华. 改进BP算法及其在网络入侵检测中的应用[J]. 计算机科学, 2013, 40(12): 174-176.

SUN Wenjing, QIAN Hua. Improved BM algorithm and its application in network intrusion detection[J]. Computer Science, 2013, 40(12): 174-176.

[4] 傅涛. PSO-based K-means算法及其在网络入侵检测中的应用[J]. 计算机科学, 2013, 40(11): 137-139.

FU Tao. PSO-based K-means algorithm and its application in network intrusion detection[J]. Computer Science, 2013, 40(11): 137-139.

[5] 陈友. 一种高效的面向轻量级入侵检测系统的特征选择算法[J]. 计算机学报, 2015, 30(8): 1398-1408.

CHEN You. An efficient feature selection algorithm toward building lightweight intrusion detection system[J]. Chinese Journal of Computers, 2015, 30(8): 1398-1408.

[6] 周丹. 一种基于PSO辨别树的P2P网络入侵检测方法[J]. 计算机仿真, 2013, 30(10): 322-324.

ZHOU Dan. Detection method of P2P network intrusion[J]. Computer Simulation, 2013, 30(10): 322-324.

[7] 李振美. 由粗到精分层技术下的复杂网络入侵检测方法研究[J]. 科学技术与工程, 2013, 13(30): 9094-9098.

LI Zhenmei. Research on coarse-to-fine hierarchical intrusion detection technology in complex network[J]. Science Technology and Engineering, 2013, 13(30): 9094-9098.

[8] ELHAG S, FERNNDEZ A, BAWAKID A, et al. On the combination of genetic fuzzy systems and pairwise learning for improving detection rates on intrusion detection systems[J]. Expert Systems with Applications, 2015, 42(1): 193-202.

[9] 田新广, 段洣毅, 程学旗. 基于shell命令和多重行为模式挖掘的用户伪装攻击检测[J]. 计算机学报, 2010, 33(4): 697-705.

TIAN Xinguang, DUAN Miyi, CHENG Xueqi. Masquerade detection based on shell commands and multiple behavior pattern mining[J]. Chinese Journal of Computers, 2010, 33(4): 697-705.

[10] 易鸿. 基于贝叶斯算法的神经网络优化方法[J]. 四川文理学院学报, 2010, 20(2): 37-40.

YI Hong. Optimization based on Bayesion neural network algorithm[J]. Journal of Daxian Teachers College, 2010, 20(2): 37-40.

[11] NEMPONT O, ATIF J, ANGELINI E, et al. A new fuzzy connectivity measure for fuzzy sets[J]. Journal of Mathematical Imaging and Vision, 2009, 34(2): 107-136.

[12] AZNARTE J L, MEDEIROS M C, BENITEZ J M. Linearity testing for fuzzy rule-based models[J]. Fuzzy Sets and Systems, 2010, 161(13): 1836-1851.

[13] KILIN D, ALPKOCAK A. An expansion and reranking approach for annotation-based image retrieval from Web[J]. Expert Systems with Applications, 2014, 38(10): 13121-13127.

[14] KIM S Y, HINCKLEY T, BRIGGS D. Classifying individual tree genera using stepwise cluster analysis based on height and intensity metrics derived from Airborne Laser Scanner Date[J]. Remote Sensing of Environment, 2011, 115(12): 3329-3342.

[15] KANNAN S R, RAMATHILAGAM S, DEVI R, et al. Robust kernel FCM in Segmentation of breast medical images[J]. Expert Systems with Applications, 2011, 38(4): 4382-4389.

(编辑  陈灿华)

收稿日期:2015-11-20;修回日期:2016-01-26

基金项目(Foundation item):国家自然科学基金资助项目(61471169);湖南省自然科学基金资助项目(2016JJ2029);中央高校基本科研业务费专项资金资助项目(531107040201) (Project(61471169) supported by the National Natural Science Foundation of China; Project(2016JJ2029) supported by Hunan Provincial Natural Science Foundation; Project(531107040201) supported by the Special Funds for Basic Scientific Research Business of the Central Universities)

通信作者:陆绍飞,博士,硕士生导师,从事云计算与信息安全研究;E-mail: sflu@hnu.edu.cn

摘要:针对标准模糊C均值聚类算法(FCM)在云计算平台下的入侵检测中存在检测精度不高等问题,提出一种基于目标函数优化模糊C均值聚类算法的云计算入侵检测模型。该模型采用核函数增强FCM算法的寻优能力,根据 Mercer 核定义优化FCM算法的目标函数,使用拉格朗日数乘法求得聚类中心和隶属度矩阵,有效降低算法的复杂度。研究结果表明:所提出的基于目标函数优化的FCM算法与传统的FCM算法相比,对云计算网络入侵检测的准确率较高,具有更好的收敛性能。

[1] 杨雅辉, 黄海珍, 沈晴霓, 等. 基于增量式GHSOM神经网络模型的入侵检测研究[J]. 计算机学报, 2014, 37(5): 1216-1224.

[2] WANG Lina, WANG Tingting. Application of network intrusion detection based on two-steps fuzzy clustering[J]. Microelectronics & Computer, 2014, 31(3): 70-74.

[3] 孙文静, 钱华. 改进BP算法及其在网络入侵检测中的应用[J]. 计算机科学, 2013, 40(12): 174-176.

[4] 傅涛. PSO-based K-means算法及其在网络入侵检测中的应用[J]. 计算机科学, 2013, 40(11): 137-139.

[5] 陈友. 一种高效的面向轻量级入侵检测系统的特征选择算法[J]. 计算机学报, 2015, 30(8): 1398-1408.

[6] 周丹. 一种基于PSO辨别树的P2P网络入侵检测方法[J]. 计算机仿真, 2013, 30(10): 322-324.

[7] 李振美. 由粗到精分层技术下的复杂网络入侵检测方法研究[J]. 科学技术与工程, 2013, 13(30): 9094-9098.

NDEZ A, BAWAKID A, et al. On the combination of genetic fuzzy systems and pairwise learning for improving detection rates on intrusion detection systems[J]. Expert Systems with Applications, 2015, 42(1): 193-202." target="blank">[8] ELHAG S, FERNNDEZ A, BAWAKID A, et al. On the combination of genetic fuzzy systems and pairwise learning for improving detection rates on intrusion detection systems[J]. Expert Systems with Applications, 2015, 42(1): 193-202.

[9] 田新广, 段洣毅, 程学旗. 基于shell命令和多重行为模式挖掘的用户伪装攻击检测[J]. 计算机学报, 2010, 33(4): 697-705.

[10] 易鸿. 基于贝叶斯算法的神经网络优化方法[J]. 四川文理学院学报, 2010, 20(2): 37-40.

[11] NEMPONT O, ATIF J, ANGELINI E, et al. A new fuzzy connectivity measure for fuzzy sets[J]. Journal of Mathematical Imaging and Vision, 2009, 34(2): 107-136.

[12] AZNARTE J L, MEDEIROS M C, BENITEZ J M. Linearity testing for fuzzy rule-based models[J]. Fuzzy Sets and Systems, 2010, 161(13): 1836-1851.

[13] KILIN D, ALPKOCAK A. An expansion and reranking approach for annotation-based image retrieval from Web[J]. Expert Systems with Applications, 2014, 38(10): 13121-13127.

[14] KIM S Y, HINCKLEY T, BRIGGS D. Classifying individual tree genera using stepwise cluster analysis based on height and intensity metrics derived from Airborne Laser Scanner Date[J]. Remote Sensing of Environment, 2011, 115(12): 3329-3342.

[15] KANNAN S R, RAMATHILAGAM S, DEVI R, et al. Robust kernel FCM in Segmentation of breast medical images[J]. Expert Systems with Applications, 2011, 38(4): 4382-4389.