欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
计算机论文
当前位置:首页 > 计算机论文
大数据环境下的网络主动入侵检测方法研究
来源:一起赢论文网     日期:2015-10-18     浏览数:4269     【 字体:

 王曙霞(湖北工程学院计算机与信息科学学院,湖北孝感432000)摘要:由于传统网络入侵检测方法检测率低及不能进行在线检测,无法有效实现网络主动入侵检测,提出一种基于马氏距离K均值的大数据环境下网络主动入侵检测方法,分析了马氏距离的评价准则,依据新样本与原样本之间的马氏距离确定是否需开展新的聚类,输出与全部数据样本相应的攻击类别。通过一个由一定数量的支持向量决定的超平对数据进行分类,当SVM分离方法受到约束时,利用核函数将输入数据映射至高维特征空间,采用高斯径向基函数对最小二乘支持向量机分类模型进行建立。通过粒子群优化算法对最小二乘支持向量机参数进行选择。利用种群中个体之间的协作以及信息交换获取最佳方案。仿真实验结果表明,所提方法有很高的的检测效率及精度。关键词:大数据;网络入侵;检测;中图分类号:TP393 文献标识码:文章编号:1001-7119201508-0225-03Network Intrusion Detection Method Research Under Big Data EnvironmentWang Shuxia(School of Computer and Information Science; Hubei Engineering UniversityXiaogan Hubei 432000; China)Abstract:Due to low detection rate and the traditional network intrusion detection method cannot be on-line detection, unable to effectively implement network intrusion detection, proposes a k-means based on markov distance under the environment of big data network intrusion detection method, analyzed the evaluation criterion of markov distance, on the basis ofmarkov distance between the new sample with the original sample to determine whether need to launch a new clustering,output and all data samples corresponding attack category. Through a determined by a certain number of support vectorsthan classifying data, when the separation of the SVM method is restrained, use kernel functions to map the input data tohigh-dimensional feature space, the gaussian radial basis function is adopted to the least squares support vector machine(SVM) classification model is established. By particle swarm optimization algorithm for least squares support vector machine (SVM) parameters selection. Using the collaboration and information exchange between individuals in a population toobtain the best solution. The simulation results show that the proposed method has high detection efficiency and precision.Keywords:big data;network invasion;detection;0 引言近年来,随着计算机技术的迅猛发展,以及智能终端、数字地球等信息体的普及与建设,全球数据量增长速度加快,大数据时代已经到来[1,2]。大数据下网络蕴藏着价值信息,但数据安全面临严峻挑战[3]。随着大数据环境的逐渐发展,信息的开放程度也随之扩大,导致信息泄露及网络入侵。面对大数据发展的特点,如何保障数据安全,准确检测出网络主动入侵,成为相关学者研究的重点课题,受到越来越广泛的关注[4,5]基于PSO-LSSVM 的网络主动入侵检测方法传统K均值算法通过欧式距离对两个样本之间的相似程度进行衡量,有一定的弊端,马氏距离是一种数收稿日期:2015-08-07基金项目:国家自然科学基金(61370092);湖北省自然科学基金(No.2013CFC005);湖北省高等学校优秀中青年科技创新团队计划(T201410)。作者简介:王曙霞(1975-),女,湖北荆门人,硕士,副教授,研究方向:智能计算与网络安全。。第31卷第820158月科技通报BULLETIN OF SCIENCE AND TECHNOLOGYVol.31 No.8Aug. 2015DOI:10.13774/j.cnki.kjtb.2015.08.076科技通报第31卷据协方差距离,能够有效衡量样本的相似度,因为马氏距离计算过程中只与样本数量有关,所以计算效率较高。假设大数据环境下网络数据样本集是X ={x1,x2,,x } n ,其中任意两个样本之间的马氏距离可通过下式求出:dij = (x ) i -xjTΔ-1(x ) i -xj式中,Δ 用于描述样本的协方差矩阵。所以,经优化后的依据马氏距离的评价目标函数可描述成:JC = (Δ,X) =Σj =1k Σi =1nωi(x ) i -cjT(x ) i -cj -ln|Δ|式中,xi ={x } i1,xi2,,xip 用于描述样本对象;xij 用于描述第维分量;cj 用于描述第个聚类中心;nj 用于描述聚类Cj 的样本个数;ω用于描述此刻样本数据的权重。支持向量机是依据统计学的一种分类方法,主要用于解决小样本、非线性、高维等分类问题,其基本思想为:通过一个由一定数量的支持向量决定的超平对数据进行分类。若不能采用SVM分离方法,则利用核函数将输入数据映射至高维特征空间,通过高维特征空间解决上述问题。在高维特征空间中建立最优分类超平面WT·ϕ(x) +b =0,令分类间隔达到最大化。引入拉格朗日乘子,在Σi =1nyi ai =0 ai 条件下对下式最大值进行计算:Σi =1nai -1 2Σi,j =1nai aj yi yj k(x,x ) i 1)其中,k(x,x ) i 用于描述核函数。则支持向量机函数可描述成:y(x) =signæè çöø ÷Σi =1nαi yi k(x,x ) i +b 2)将最小二乘支持向量机分类问题转换成下述二次规划问题:minJ( ) ω,ξ =12æè çöø ÷ω2 +CΣi =1nξ 2i 3s.t. yi[ωTϕ(x ) ] i +b -1+ξi =0 4)式中,用于描述惩罚参数,其能够对大于误差样本的惩罚程度进行调控,大小可调。ω 、分别用于描述权向量及阈值。引入拉格朗日乘子ai ,将上述分析的问题变成下述问题:L =J(ω,ξ) -Σi =1nai(y ) i[ωTϕ(x ) ] i +b -1+ξ5)式中,ai ,用于描述拉格朗日乘子。分别对式(4)的ω 、、ξai 求偏导数,则有:ìíîïï ïïïï ïïw =Σi =1nai yi ϕ(x ) iξi =ai /CΣi =1nai =1yi[ωTϕ(x ) ] i +b +ξi -1=06)将、ξ消除,则有:éë êùû úI Y TY ψ +C-1Iéëùûba =éëêùûú0I07)式中,Y =[y1ϕ(x1),y2ϕ(x2),,y ] n ϕ(x ) n 8I0 =[1,1,,1]T 9a =[a1,a2,,a ] nT 10)ψ =[y ] i,yi ϕ(x ) iTϕ(x ) jn ×n11)求出后,LS-SVM的最佳分类函数可描述成:y(x) =signéë êùû úΣi =1nai yi k(x,x ) i +b 12)式中,k(x,x ) i 用于描述核函数,通常采用几种核函数如下:(1)线性核函数k(x,x ) i =x·xi ;(2)多项式核函数k(x,x ) i = (x·x ) i +1 l l =1,2,…;(3)高斯径向基函数k(x,x ) i =expéëêêùûúú- x -x  i22σ等。本文采用高斯径向基函数对最小二乘支持向量机分类模型进行建立。选择合适的最小二乘支持向量机参数对增强分类性能起着至关重要的作用。本文通过粒子群优化算法对最小二乘支持向量机参数进行选择。粒子群优化算法是一种智能寻优算法,利用种群中个体之间的协作以及信息交换获取最佳方案。粒子群优化算法利用一个由目标函数获取的适应值对其有效性进行评估。粒子状态可通过下式进行描述:Vi +1 =w·Vi +c1·rand·( pbest ) i -Xi +c2·rand·(gbest -X ) i13Xi +1 =Xi +Vi +1其中,pbest 用于描述该粒子的最佳位置;gbest 用于描述全部粒子中的最佳位置;rand 用于描述01范围内的任意数值;用于描述惯性因子;c1 c2 用于描述学习因子,本文取2。通过粒子群优化算法获取最优最小二乘支持向量机参数的详细过程如下:(1)对群体规模进行初始化处理,同时随机产生一组粒子;(2)求出所有粒子的适应度。若所有粒子的适应度均优于pbest ,则用其值替代pbest ;若所有粒子的适2268期应度值均优于gbest ,则用其值替代gbest ;(3)对粒子速度及位置进行更新。(4)判断是否达到最大迭代次数,若达到最大迭代次数,则结束迭代,输出改进的最小二乘支持向量机参数;否则重新进行步骤(2),获取更新后的粒子速度和位置。仿真实验分析分别采用本文方法和传统人工神经网络检测方法方法对KDD99数据集中的入侵数据进行检测,对检测的准确率进行统计,获取的结果用表1进行描述。表本文方法与传统方法准确率比较结果Table 1 The method compared with traditional methods accuracyresults攻击方式NormalDosU2RR2LProbe检测准确率/%本文方法99.4699.7596.3995.8699.54传统方法92.1584.5977.7975.6887.71分析表1可以看出,采用本文方法的检测准确率明显高于传统人工神经网络检测方法,且一直高于传统方法,说明本文方法有很高的检测性能,验证了本文方法的有效性。在上述实验的基础上,对本文方法和传统人工神经网络检测方法的误报率和漏报率进行统计,获取的结果用表2进行描述。表本文方法与传统方法误报率、漏报率比较Table 2 This method compared with the traditional method offalse positives, non-response rates攻击方式NormalDosU2RR2LProbe误报率/%本文方法2.653.231.762.151.83传统方法3.794.122.252.342.09漏报率/%本文方法1.671.351.721.371.44传统方法2.151.681.971.741.91分析表2可以看出,采用本文方法的误报率及漏报率均低于传统人工神经网络检测方法,这是因为本文方法能够实时在线检测,大大降低了误报、漏报情况的发生。检测时间性能对比如图1所示。分析图1可以看出,本文方法的检测时间一直低于传统人工神经网络检测方法,这是因为传统方法在检测过程中,为了增强自身的自适应性,增加了自主响应,造成检测时间长。图本文方法与传统方法检测时间比较Fig.1 This method is compared with the traditional methoddetection time4 结论本文提出了一种基于马氏距离K均值的大数据环境下网络主动入侵检测方法,仿真实验结果表明,所提方法有很高的的检测效率及精度。参考文献[1] 谢红,刘人杰,陈纯楷.基于误用检测与异常行为检测的整合模型[J].重庆部电大学学报(自然科学版),2012,1(24):73-77.[2] 汪洁.基于神经网络的入侵检测系统的设计与实现[J].计算机应用与软件,2013,5(30):320-322.[3] 杨照峰,樊爱京,樊爱宛.基于自适应蚁群聚类的入侵检测[J].计算机工程与应用,2011,47(12): 90-96.[4] 杨晓峰,孙明明,胡雪蕾,.基于改进隐马尔可夫模型的网络攻击检测方法[J].通信学报,2010,3(31):95-101.[5] 李庆年.基于多层特征基参数融合的网络入侵检测算法[J].科技通报,2012,8 (28):69-71.王曙霞.大数据环境下的网络主动入侵检测方法研究227

[返回]
上一篇:大数据相关分析综述
下一篇: 基于Hadoop 的分布式网络爬虫技术