欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
SCI期刊论文
当前位置:首页 > SCI期刊论文
一种基于选择性协同学习的网络用户
来源:一起赢论文网     日期:2015-04-26     浏览数:3230     【 字体:

 摘   要   为了快速准确检测网络用户的异常行为, 机器学习技术得到了广泛应用 . 但随着用户规模的扩大及用户行为的复杂化, 基于机器学习的传统检测方法面临着大量标记训练样本而导致的巨大开销、 实际网络用户异常行为数据非平衡性而导致的检测准确性不足等问题 . 因此, 将选择性集成技术引入到协同学习过程中, 提出了一种基于选择性协同学习的网络用户异常行为检测方法, 使用基于多数类分布的改进 E a s y E n s e m b l e 方法将非平衡训练样本划分为平衡的样本子集, 然后使用基于混合扰动的生成方法构造差异性成员分类器对样本子集进行协同学习, 在学习过程中使用选择性集成进行置信度计算与数据更新以减少开销, 并基于准确性选择构建集成分类器用于实际检测, 使得检测方法在获得非平衡性复杂分布数据的处理能力的同时进一步提高检测准确性 . 实验结果表明, 该方法较传统方法减少了对训练样本中标记数据的需求, 同时在准确性评价指标上表现更好, 能更快速准确地检测出网络用户的异常行为 .

关键词   网络用户异常行为检测; 协同学习; 选择性集成学习; 支持向量机; 机器学习
   1  引   言
    网络用户异常行为是网络面临的一大威胁, 所谓异常行为, 顾名思义, 是指与正常行为相对应, 由网络用户实施的对网络正常运行造成影响的行为,例如传播蠕虫、 D D o S攻击等. 这些行为会造成网络服务质量急剧下降, 网络负载加重甚至瘫痪等后果.随着网络快速发展, 网络用户异常行为的新变种以及新行为层出不穷, 其威胁也日益严重. 因此无论是加强对用户行为的管控, 还是保障网络的正常运行,都要求能够对网络用户的异常行为实施快速、 准确的检测 [1 - 2 ] .早期人们通常采用端口扫描、 报文特征字段匹配等方法对异常行为进行深入分析以获取特征, 从而实现网络用户异常行为的检测. 然而, 随着用户异常行为不断变化, 依靠人工对异常行为进行分析以获取特征的代价越来越高昂甚至不可行 [3 ] . 
    随着人工智能技术的发展, 机器学习技术更多地被用于从网络数据中自动计算异常行为模式、 提取其特征, 从而自动产生检测规则, 大大降低了开发代价 [3 ]. 根据使用的机器学习技术不同, 检测方法大致分为以下几类:
    (1 ) 基于无监督学习( U n s u p e r v i s e d  L e a r n i n g )的检测方法. 这类方法无需使用有标记的训练样本,通 过 聚 类 [4 ] 、自 组 织 图 (S e l f - O r g a n i z i n g   M a p ,S OM )[ 5 ] 等算法实现对异常模式的自动获取. 但该类方法训练开销大, 分类模型可读性差, 检测率低.
   (2 ) 基于监督学习( S u p e r v i s e d  L e a r n i n g ) 的检测方法. 这类方法需要使用有标记的训练样本, 按分类器类型不同, 有隐马尔可夫模型 [6 ] 、 贝叶斯网络 [ 7 ] 、决策树 [8 ] 及支持向量机(S u p p o r t  V e c t o r  M a c h i n e ,S VM )[ 9 - 1 2 ] 等不同方法. 该类方法在准确性、 模型可读性等方面优于无监督学习的检测方法, 但其对训练样本中标记数据数量及分布平衡性等方面要求较高, 实际应用时为了获取标记数据, 往往需积累不同时间段甚至不同网络环境数据并进行大量的筛选与标记工作, 不但开销巨大, 甚至还会损失实际数据的分布情况, 进而影响检测结果的准确性.
   (3 ) 基于半监督学习( S e m i - s u p e r v i s e d  L e a r n i n g )的检测方法. 半监督学习又称为协同学习( C o l l a b o-r a t i v e  L e a r n i n g ) , 通过生成的若干成员分类器进行协作学习, 能够充分利用蕴含在无标记训练样本中的信息, 从而降低了对训练样本数据进行标记的数量要求, 在检测准确性和标记训练样本数量之间取得了较好的折中 [1 3 - 1 4 ] . 
    目前已得到广泛应用, 例如Z h a n g 等人[ 1 5 ] 分析了协同学习对聚类相关应用的效果, E r m a n等人 [1 6 ] 首次将协同学习应用于实时流量分类并验证了 有 效 性, M e n g 等人 [1 7 ] 提 出基于S VM 协同学习方法用于修正入侵检测的误报率, L i等人 [1 8 ] 分析了将 T r i- T r a i n i n g 协同学习方法应用于主机系统入侵检测的效果等等. 虽然协同学习方法能够因只需部分标记的训练样本数据而降低系统开销, 但其通常假设训练样本是均匀和平衡的, 而实际的网络环境中, 包含网络用户异常行为的网络数据中存在着明显的非平衡性和分布复杂性 [1 9 ] , 若将协同学习方法直接用于网络用户异常行为的检测, 则其生成的成员分类器会产生过拟合(o v e r  f i t )现象, 从而 影 响 协 同 学 习 的 效 果、 降 低 检 测 的 准确性.为了解决上述问题, 本文将选择性集成学习(S e l e c t i v e  E s s e m b l e  L e a r n i n g ) 技术引入到协同学习过程中, 提出了一种基于选择性协同学习( S e l e c t i v eC o l l a b o r a t i v e  L e a r n i n g ) 的网络用户异常行为检测方法, 以提升协同学习方法处理非平衡复杂分布数据的能力, 提高网络用户异常行为的检测准确性. 
    该方法在训练样本处理环节使用改进的E a s y E s s e m b l e方法, 针对训练样本存在非平衡性、 多数类分布复杂以及部分标记的特点, 在分析多数类分布基础上将非平衡训练样本划分为多个均衡且保留原分布信息的训练样本子集, 分别供成员分类器训练; 在成员分类器生成环节, 结合训练样本处理方法, 使用样本子空间、 样本子空间特征和分类器参数互相组合的混合扰动方法生成足够数量且具备差异性的成员分类器, 然后在成员分类器的训练过程中使用选择性集成结果计算置信度及更新数据以降低开销, 最后在集成环节则根据所有成员分类器在训练过程中积累的准确性进行选择和组合, 构造最终的集成分类器用于网络用户异常行为的检测.实验结果表明, 本文提出的方法在减少对标记数据需求、 降低系统开销以及提高检测准确性等方面均优于其它基于机器学习的传统检测方法.本文第 2 节介绍网络用户异常行为检测模型;第3节描述选择性协同学习方法, 包括训练样本处理、 成员分类器生成以及分类器的选择性集成; 第4节介绍网络用户异常行为检测方法; 第 5 节对本文方法进行实验验证分析; 第6节为总结和展望.
    2  网络用户异常行为检测模型
    2. 1  相关概念用户不同的网络行为数据往往具有不同的统计特征, 这些特征反映行为的内在特性. 基于选择性协同学习的用户异常行为检测, 实质即使用选择性协同学习方法自适应地学习用户正常和异常行为在不同统计特征上的差异, 以此检测异常行为. 为更好地描述检测方法, 本文给出如下定义.定义1. 网络用户异常行为.即影响网络平稳运行的用户某类型特定行为, 例如某种 D D o S攻击行为、 过度占用带宽的 P 2 P下载应用等. 本文使用O b j e c t来表示需要被检测的异常网络行为.定义2. 检测特征指标集.即用户网络行为流量中具备的可能包含用户正常和异常行为差异的可统计考察因素集, 如流持续时间、 报文到达间隔等,使用向量 F o b j e c t = { C 1 , C 2 , …, C n } 表示, 其中 C i ( i ∈[1 , n ] ) 表示第 i 项考察因素.为了保证检测方法的有效性, 须选择对用户应用覆盖面较广的特征指标集 F o b j e c t . 目前在流量识别、 网络安全等领域已有较多研究成果可借鉴, 如文献[2 0 ] 提出了高达2 4 6种候选指标等等. 但在具体的异常行为识别环境中, 考虑这些考察因素在采集以及数据处理时的可行性和效率因素, 可以有选择地去除一些冗余或难以采集的特征指标.定义3. 网络用户行为数据: 即按检测特征指标集对网络流量进行采集和预处理后所得的网络用户行 为 具 体 数 据, 基 于 给 定 的 检 测 特 征 指 标 集F o b j e c t = { C 1 , C 2 , …, C n } , 当前收集到的第 i 条用户行为数据可以使用向量 A c t i o n i = { xi 1 ,x i 2 , …, x i n }表示, 其中 xi j(j ∈ [ 1 , n ] ) 为在特征指标 C j 下得到的测量值. 网络用户行为数据可直接供检测使用.定义4. 标记. 即对获得的用户网络行为数据使用人工或其它 方 法分 析后 所 作 出 的 类 别 标识, 用 t 表 示, 由 于 S VM 是一种二分类的检测方法, 因此标记具体取值为 t ∈ { 1 , 0 , -1 } , 其中取值 1为正标记, 对应异常行为; -1为负标记, 对应用户正常行为; 0则表示无标记, 即该行数据行为类别未知 .定义5. 训练样本. 即经部分标记处理后所得的可用于训练分类器的带标记的用户网络行为数据X . 所谓部分标记数据即从采集得到的用户网络行为数据中选择一部分使用人工或其它技术方法进行分析, 根据结果, 将异常行为标记为1 , 正常行为标记为-1 , 其余未分析数据标记为0.m 条用户行为数据进行部分标记后构成的训练样本 X 可表示为X =a 1a 2a熿燀燄燅m=x 1 1 x 1 2…x 1 n t 1x 2 1 x 2 2…x 2 n t 2    x m 1 x m 2…x m n t熿燀燄燅m   m × ( n +1 ).其中每一行都由用户行为数据 xi j,i ∈ [ 1 , m ] ,j ∈ [ 1 , n ] 与 对 应的类 别 标记 t i , i ∈ [ 1 , m ] , t i ∈{1 , -1 , 0 } 联立而成.
    2. 2  异常行为检测模型描述为了快速准确地检测出网络用户的异常行为,首先需要对从网络上采集到的反映网络用户行为的网络数据进行训练和学习, 获取用户行为特征, 生成分类模型. 然后, 基于生成的分类模型对从网络上获得的实时数据进行检测, 从而识别出网络用户的异常行为. 其中, 所采用的学习技术的性能和学习效果直接影响着用户行为检测结果的准确性. 协同学习技术因其在检测准确性和标记训练样本数量之间取得了较好的折中而得到广泛应用, 但其要求训练样本必须是均匀和平衡的, 这并不适用于从网络上获取的、 具有明显非平衡性和分布复杂性的网络用户行为数据. 为此, 将选择性集成学习技术引入到协同学习过程中, 提出了一种选择性协同学习方法用于获取用户行为分类模型, 在适应非平衡训练样本数据的同时, 提升训练学习效果. 首先采集网络实际流量数据并进行预处理, 包括根据检测特征指标对流量数据进行统计和测量以构造网络用户行为数据,使用软件工具、 人工分析等方法对部分网络用户行为数据进行标记, 得到部分标记的训练样本; 然后使用改进的 E a s y E n s s e m b l e方法对训练样本进行处理, 包括使用基于特征子空间的聚类方法获取样本分布情况, 将训练数据划分为保留原有分部信息的、平衡的样本子集; 随后采用基于混合扰动方法生成具备差异性的成员分类器; 最后使用改进的协同学习方法对成员分类器进行训练并根据准确性筛选成员构建集成分类器. 基于集成分类器, 则可以根据检测特征对经过预处理的网络原始流量数据进行检测, 以对用户行为进行识别. 由此, 本文提出了一种基于选择性协同学习的网络用户异常行为检测模型, 该模型由选择性协同学习和异常行为检测两部分组成, 其结构如图1所示.
   (1 ) 选择性协同学习训练数据预处理模块. 对采集到的用户行为流量数据进行统计、 测量以及标记, 生成样本处理模块使用的训练样本.样本处理模块.使用基于多数类分布的改进E a s y E n s s e m b l e方法处理训练样本, 生成训练样本子集.成员分类器构建模块. 使用混合扰动技术生成成员分类器, 供后续的协同学习和选择性集成使用.协同学习模块. 使用改进的协同学习方法对成员分类器进行训练, 供生成集成分类器使用.选择性集成模块. 基于准确性筛选成员分类器来构建集成分类器, 用以检测网络用户异常行为.
   (2 ) 用户异常行为检测检测数据预处理模块. 对欲检测的用户行为流量数据进行统计测量, 生成集成分类器可处理的用户行为数据.异常行为识别模块. 使用集成分类器对网络用户行为数据进行分类, 根据结果识别用户的异常行为.
    3  选择性协同学习
    3 . 1  训练样本的处理基于协同学习的检测方法不足之处主要在于缺乏对非平衡数据的处理能力, 引入非平衡数据处理方法可对其进行改进. 但传统非平衡性数据处理方法如过取样、 欠取样等对实际数据有较多增、 删操作, 会损失实际分布信息, 对于非平衡较为严重的网络数据而言, E a s y E s s e m b l e方法更为合适. 该方法利用集成分类思想, 根据非平衡程度, 将训练样本划分为若干平衡的子集并以此训练相应数量的成员分类器, 最后集成成员分类器进行检测, 从而避免直接增删数据导致遗漏样本信息、 引入误差等缺陷.然而E a s y E n s e m b l e方法并不适宜直接引入基于选择性协同学习的检测方法. 一方面, 选择性协同学习使用部分标记训练样本, 样本包含的大量无标记数据并未明确归属少数类或多数类, 无法直接进行划分; 另一方面, E a s y E s s e m b l e方法假设多数类数据是均匀分布, 对其进行随机划分, 然而网络用户正常行为数据的分布有偏重, 很多研究结果都指出,当前的网络流量组成存在着类似“ 重尾分布” 的结构, 少数行为占据流量数据中的大部分, 而其余行为数据仅占流量的一小部分, 例如根据文献[2 1 ] , 当前I n t e r n e t网络的流量从应用类型来看, 基于 T C P的WWW 应用可占 4 0% 以上, 主要基于 UD P 的如P 2 P等应用占据了3 0%左右, 两者占据流量大部分, 反之基于其它协议如I CMP等的网络操作仅占2% , 而一些恶意行为( 例如I CMP  F l o o d攻击等) 恰是利用此类协议进行的. 显然对这种复杂分布的数据进行随机划分会严重影响样本子集质量: 随机划分所得的 n ( n 值与平衡性相关, 非平衡性越严重, n值越大) 个子集内少数协议数据量将非常稀疏, 甚至成为孤立点, 由此训练而得的成员分类器将难以识别此类恶意行为, 进而影响最终的检测准确性. 因此需要对 E a s y E s s e m b l e方法进行改进, 引入聚类技术来确定无标记数据的归属及分析多数类分布信息来帮助样本划分, 划分时向低比例数据倾斜, 增加样本子集中低比例数据的数量, 最终构造平衡、 尽可能包含全部分布信息的训练样本子集. 另外, 由于样本数据属于高维数据, 因此在选择聚类算法时可采用子空间聚类算法, 该类算法将特征指标集划分为若干特征子空间, 这些特征子空间还可用于3 . 2节中成员分类器生成算法, 从而进一步降低检测方法的开销. 
    基于以上分析, 本文提出基于多数类分布的改进 E a s y E s s e m b l e 方法, 通过两阶段处理划分训练样本子集:(1 ) 第1阶段任务为识别无标记数据的归属,首先划分特征指标子空间, 随后使用子空间聚类的两分类聚类处理包含所有数据的训练样本, 最后根据结果中包含少数类标记的数量投票来确定无标记数据的归属等步骤 .(2 ) 第2阶段任务是多数类数据进行划分, 首先使用子空间聚类的多类别聚类方法分析正常行为数据类型及其数量比例, 然后根据比例有倾斜地划分训练样本子集, 增加子集中低比例数据的数量, 相对减少高比例数据, 确保划分后的每个子集都包含足够的、 包含所有类别行为的信息.改进 E a s y E n s s e m b l e样本处理算法描述如算法1所示, 其中1~3行为无标记数据的处理过程,4~8行为对多数类数据的划分,9~1 0行为最终训练样本子集的生成. 相对通用的 E a s y E s s e m b l e方法, 本文样本处理方法: (1 ) 具备处理部分标记训练样本的能力; (2 ) 能对多数类数据的复杂分布进行分析, 并根据分析结果进行有倾斜的划分, 构建平衡且包含全部分布信息的训练样本子集; (3 ) 形成的特征指标子空间还可用于后续的成员分类器生成,有利于降低开销.
    算法1 .基于多数类分布的改进E a s y E n s s e m b l e样本处理算法.输入: 训练样本X =a 1a 2a熿燀燄燅m=x 1 1 x 1 2…x 1 n t 1x 2 1 x 2 2…x 2 n t 2    x m 1 x m 2…x m n t熿燀燄燅m   m × ( n +1 ),检测特征指标集 F o b j e c t = { C 1 , C 2 , …, C n } , 检测特征指标子空间的特征数量 s , 特征指标子空间数量 N , 其中 s < n , N 为奇数输出: 训练样本子集{ X 1 , X 2 , …, X M } , 检测特征指标子集{ F 1 ,F 2 , …, F N }1. 随机从 F o b j e c t 中选取 s 项特征指标, 重复N 次, 构造N 个 特 征 指 标 子 集 { F 1 , F 2 , …, F N } , 对 每 一 个 F i ( i ∈[ 1 , N ] ) , 有 Fi = { C 1 , C 2 , …, C s } , 其中 C 1 , C 2 , …, C s ∈ F o b j e c t且各特征指标子集互不相同.
    2. 根据每个 F i ( i ∈ [1 , N ] ) 对训练样本 X 进行投影, 得对应特征指标子空间上的样本X Fi =a ′ 1a ′ 2a ′熿燀燄燅m=x 1 1 x 1 2…x 1 s t 1x 2 1 x 2 2…x 2 s t 2    x m 1 x m 2…x m s t熿燀燄燅m   m × ( s +1 ),使用C UR E 方法对{ a ′ 1 , a ′ 2 , …,a ′ m } 进行二分类聚类( 取聚类数目 K =2 , 收缩因子 a =0 . 3 , 从两种已标记数据中抽取约1 0%作为代表点) , 计算结果两个类别中对应 t =1 的元素数量, 令数量多者为少数类结果 M i n o r ( F i ) .
    3. 对所有 M i n o r (F i ) ( i ∈ [ 1 , N ] ) 中对应 t =0 的元素进行投票, 按简单多数确定其是否为少数类元素, 投票结果与训练样本 X 中 t =1 元素合并, 构成少数类样本集合 M i n o r( M i n o r  X ) , 设其 s1 项数据, 则 M i n o r = { a 1 , a 2 , …, a s1 } , 其中  aj ( j ∈ [ 1 , N ] ) 或 a j 对应的 t =1 , 或者 t =0但其出现在过半数的 M i n o r ( F i ) 中, 其 余 元 素 构 成 多 数 类 样 本 集 合M a y o r ( M a y o r  X ) , 设其有 s 2 项数据, 则有 s 1 + s 2 = m .
    4. 根据每个 F i 对少数类样本集合 M a y o r 进行投影, 得对应特征指标子空间上的少数类样本M i n o r ′ ( F i ) =a ′ 1a ′ 2a ′ s熿燀燄燅1=x 1 , 1 x 1 , 2…x 1 , s t 1x 2 , 1 x 2 , 2…x 2 , s t 2    x s 1 , 1 x s 1 , 2… xs 1 , s t熿燀燄燅m   m × ( s +1 ),计算其中心位置, 公式为 M i n o r ′ ( F i ) = ( x-1 , x-2 , …, x-s ) , 其中x -i =∑s1j =1 xj , is 1.
    5. 根据每个 F i 对多数类样本集合 M a y o r 进行投影, 得对应特征指标子空间上的多数类样本M a y o r ′ ( F i ) =a ′ 1a ′ 2a ′ s熿燀燄燅2=x 1 , 1 x 1 , 2…x 1 , s t 1x 2 , 1 x 2 , 2…x 2 , s t 2    x s 2 , 1 x s 2 , 2… xs 2 , s t熿燀燄燅m   m × ( s +1 ),对其使用 C L I QU E 方法进行多类别聚类, 设结果中类别数量最多的子空间为 M a y o r ′ ( F m a x ) , 计算其中每一类别的中心位置, 公式为 M a y o r ′ ( F m a x ) = ( x-1 , x-2 , …, x-s ) , 其中 x-i = ∑s1j =1 xj , is 1,搜索距中心距离最近的数据为投票参照点, 距离公式为d a ′j = D i s t( M i n o r ′ ( Fi ) , a ′ i )=( x-1 - x i , 1 )2 + (x-2 - x i , 2 )2 + … + (x-n ′ - x i , s ) 槡2 ,设共有 t ′ 个类别, 对应的参照点集合为 T = { a 1 , a 2 , …, at ′ } .
    6. 对其余子空间的分类结果进行集成: 在每个子空间的分类结果中查看不属于 T 的所有数据, 若其与参照点 x t ,( xt ∈ T ) 同属一类, 则将 x t 标记加入该数据( 若与多个 x t 同属一类则加入多个标记) . 完毕后对多数类 M a y o r 所有数据的标记投票, 选择支持数最多( 若相同则选择 T 中排列靠前的类别) 的标记作为该数据类别, 检查结果并去除仅含少数点的类别.
    7. 设多数类分布的分析结果为 D 1 , D 2 , …, D t , 每个类别包含数据数量为 C o u n t ( D 1 ) , C o u n t ( D 2 ) , …, C o u n t ( D t ) ,确定 D 1 , D 2 , …, D t 的抽样权重R a t i o n ( D i ) =1-C o u n t ( D i )∑ti =1C o u n t ( D i ),于是类别 D i 的抽样数量为S i z e ( D i ) = s 1 •R a t i o n ( D i )∑ti =1R a t i o n ( D i ).
    8. 计算子样本空间数量 M = s2 / s 1 , 构造 M 个多数类样本子集{ X ′1 , X ′ 2 , …, X ′ M } , 每个子集初值为空, 依次对多数类元素每个类别 D i 进行无放回抽样, 取样数量计算为 S i z e ( D i ) ,若取样过程 D i 中数据已被取完, 则将该类数据重置为初始状态再继续抽取, 共取 M 次, 分别加入每个 X ′j ( j ∈ [ 1 , M] ) 中.9. 构造 M 个训练样本子集{X 1 , X 2 , …, X M } , 其中 X i =X ′ i ∪ M i n o r ( i ∈ [ 1 , M ] ) .1 0. 返回训练样本子集{ X 1 , X 2 , …,X M } 和特征指标子集合{ F 1 ,F 2 , …, F N }
    3 . 2  成员分类器的生成协同学习方法能够使用样本中有标记数据先行训练分类器, 继而对无标记数据分类, 将置信度较高的结果加入有标记数据, 如此反复迭代后可充分利用无标记数据的信息对分类器进行强化, 从而确保准确性同时减少对训练样本中标记数据的开销需求.然而目前较为普及的协同学习技术如基于双分类器的 C o- T r a i n i n g[ 1 3 ] 、 三分类器的 T r i- T r a i n i n g[ 1 3 ] 以及多分类器的 C o F o r e s t方法 [1 4 ] 等都倾向于使用较少的成员分类器( 最受认可的 T r i - T r a i n i n g 方法使用3个成员分类器) , 但非平衡性较为严重的网络数据经本文训练样本处理方法划分后会形成较多的样本子集, 仍使用较少的成员分类器对其进行协同学习会造成成员分类器出现过拟合等现象, 影响准确性, 因此需要对其进行改进, 生成足够数量的有差异性的成员分类器.文献[2 2 ] 已证明S VM 分类器是特征及参数敏感的, 特征敏感指不同特征空间下的样本子集训练而得的分类器具有较大差异, 参数敏感则指基于高斯核函数的S VM 的分类能力与其参数 ξ 和惩罚参数 C 密切相关. 另外训练样本不同也可造成一定差异性. 根据以上结论, 本文提出一种对特征子空间、训练样本子集以及S VM 参数三者进行充分组合的基于混合扰动的成员分类器生成方法, 首先对样本处理过程中生成的特征子空间和训练样本子集进行组合; 然后按文献[2 2 ] 在每个组合上计算可降低分类器偏差的参数 ξ 和 C 取值空间( 即“ 低偏差区域”R e g L o w ) , 从中随机选择参数 ξ 和 C , 并进一步与特征指标、 样本空间进行组合, 最终生成一定数量的、 有差异的成员分类器. 过程描述如算法2所示.算法2 .   基于混合扰动的个体分类器生成算法.输入: 训练样本子集{ X 1 , X 2 , …, X M } , 特征指标子集{ F 1 , F 2 , …, F N } , 参数扰动数量 W输出: 个体分类器集合 F a l l = {f 1 , f 2 , …, f N × M × W } 及对应的训练样本集合 Y a l l = { Y ( f 1 ) , Y ( f 2 ) , …,Y ( f N × M × W ) }1. F O R i =1t o   N2. F O R   j =1t o   M3.   根据特征指标集 F i , 对训练样本子集 X j 进行投影, 得到对应特征指标子集的样本 Y i ,j4.   分析样本 Y i , j , 使用文献[2 3 ] 方法计算其R e gL o w ,选取 W 对参数 ξ 和 C5.  F O R   k =1t o   w6. 使用参数 ξk 和 C k , 生成个体分类器 f ( f i × j × k ) ,将其加入分类器集合 F a l l ,7. 令对应的训练样本 Y (f i × j × k ) = Y i , j , 将其加入训练样本集合 Y a l l8. 返回分类器集合 F a l l 和对应的训练样本集合 Y a l l
    3 . 3  成员分类器的选择性协同学习选择性协同学习方法在完成样本处理以及成员分类器生成后, 接下来的工作则是对这些差异性成员分类器进行协同训练, 然而传统的协同训练方法在成员分类器数量增加时存在不足: 一方面, 传统方法( 如C o F o r e s t方法) 采取每个成员分类器相对其余所有成员分别计算的方案计算置信度, n 个分类器时间复杂度大致为 O ( n × ( n -1 ) ) = O ( n2 ) , 置信度本身则采用十折交叉验证等方法计算, 显然当非平衡性较为严重导致成员分类器数量 n 增大时, 这种方法会极大地增加时间开销; 另一方面, 传统方法将所有成员分类器用于最终的检测, 成员分类器数量增大时更易出现受噪音积累影响的成员影响检测准确性的情况.针对以上不足, 本文在成员分类器的协同学习和集成环节分别进行改进, 主要思路是应用选择性集成技术: 首先在成员分类器协同学习环节使用选择性集成方法对置信度计算进行简化, 即每次迭代中不再对每个成员分类器分别计算置信度并更新数据, 而是基于准确性选择部分成员分类器的集成分类结果来计算无标记数据的置信度并从整体上更新数据, 从而较传统方法的时间复杂度降为 O ( n ) ; 然后在成员分类器集成环节进行选择性集成, 基于协同学习过程中积累的准确性选择质量较高的成员分类器来构建最终用于检测的集成分类器.使用选择性集成分类方法简化置信度计算的关键在于保证选择性集成分类结果的准确性. 
    由于协同训练起始时成员分类器已使用有标记的数据进行过训练, 本文所使用泛化能力较强的 S VM 成员分类器可被认为至少是一个弱分类器( 准确性大于随机猜测的5 0% ) , 据文献[ 2 3 ] , 集成分类在成员分类器具有较高的准确性及差异性条件下可将一定数量的弱分类器集成为一个强分类器, 本文的分类器生成方法已保证了成员分类器的差异性, 因此置信度准确性依赖于参与计算的成员分类器准确性. 基于以上分析, 本文使用选择性集成技术, 在迭代过程中累计成员分类器准确性, 选择准确度较高的成员分类器的结果进行集成( 初始化时使用随机选择) , 进而计算置信度并更新数据 .协同学习过程中噪音积累问题较难避免, 若所有成员分类器用于最终检测, 则受其影响而质量较差的成员会影响准确性 . 考虑到集成分类器性能达到最优所需分类器数量存在上限 [2 4 ] (2 0~3 0 ) , 因此本文基于准确性集成这一数量的成员分类器, 剔除受噪音积累影响而准确性较差的成员分类器, 确保用于检测的集成分类器的准确性. 分类器协同学习和选择性集成的具体步骤如算法3所描述.
    算法3 . 成员分类器协同学习和选择性集成算法.输入: 个体分类器集合 F a l l = {f 1 , f 2 , …, f N × M × W } 及对应训练样 本 集 合 Y a l l = { Y ( f 1 ) , Y ( f 2 ) , …,Y ( f N × M × W ) } , 稳定阈值 M a , 预设集成分类器数量 z , 迭代过程使用成员分类器数量 T O P , 迭代次数阈值 M b输出: 集成分类器 F r e s e m b l e = {f 1 , f 2 , …, f z }1. 记每个成员分类器 f i ( i ∈ [ 1 , N × M × W ] ) 的准确度 C (f i ) =1 , 设稳定值初值为 02.F O R 每个成员分类器 f i ∈ F a l l3.  使用样本 Y ( f i ) 中有标记数据训练成员分类器f i , 使用 f i 对样本 Y ( f i ) 中无标记数据分类4.  对无标记数据的分类结果进行集成, 每项数据置信度 D e g r e e =∑T O Pj =1a ( j ) × C ( f j )T O P, 其中, a (j ) 为准确性最高的 T O P 个成员分类器中 f j 对数据的判断结果, 对所有 | D e g r e e |>0 . 6的数据进行相应标记, 构造训练样本更新集 R e s u l t , 设其数量为 R5. I F ( R =0 ) o r ( 稳定值 > M a ) o r ( 迭代次数 > M b )6.  G O T O  1 27. E L S E8.   使用 R e s u l t 更新所有成员分类器的样本 Y i ,对 R e s u l t 中每一项数据进行检查, 更新成员分类器准确度, 设分类器 f i 准确分类了 R e s u l t中 r 项数据, 则 C (f i ) = ( C ( f i ) + r / R ) / 29.   选择准确性最高前 T O P 个成员分类器( 如果出现准确性相同的情况则使用选择) , 若组成与前次相比无变化, 则稳定值+1 , 否则稳定值归01 0.G O T O  21 1.选择准确度最高的 z 个成员分类器构成集成分类器 F r e s e m b l e = {f 1 , f 2 , …, f z }1 2.返回 F r e s e m b l 
    4  网络用户异常行为检测
    利用选择性协同学习所生成的集成分类器, 可从网络数据中检测网络用户异常行为. 然而网络的流量数据并不能被集成分类器直接识别, 还需要根据检测特征指标对网络流量数据进行预处理, 构造集成分类器可以识别的网络用户行为数据, 因此网到最优所需分类器数量存在上限 [2 4 ] (2 0~3 0 ) , 因此本文基于准确性集成这一数量的成员分类器, 剔除受噪音积累影响而准确性较差的成员分类器, 确保用于检测的集成分类器的准确性. 分类器协同学习和选择性集成的具体步骤如算法3所描述.
算法3 . 成员分类器协同学习和选择性集成算法.输入: 个体分类器集合 F a l l = {f 1 , f 2 , …, f N × M × W } 及对应训练样 本 集 合 Y a l l = { Y ( f 1 ) , Y ( f 2 ) , …,Y ( f N × M × W ) } , 稳定阈值 M a , 预设集成分类器数量 z , 迭代过程使用成员分类器数量 T O P , 迭代次数阈值 M b输出: 集成分类器 F r e s e m b l e = {f 1 , f 2 , …, f z }1. 记每个成员分类器 f i ( i ∈ [ 1 , N × M × W ] ) 的准确度 C (f i ) =1 , 设稳定值初值为 02.F O R 每个成员分类器 f i ∈ F a l l3.  使用样本 Y ( f i ) 中有标记数据训练成员分类器f i , 使用 f i 对样本 Y ( f i ) 中无标记数据分类4.  对无标记数据的分类结果进行集成, 每项数据置信度 D e g r e e =∑T O Pj =1a ( j ) × C ( f j )T O P, 其中, a (j ) 为准确性最高的 T O P 个成员分类器中 f j 对数据的判断结果, 对所有 | D e g r e e |>0 . 6的数据进行相应标记, 构造训练样本更新集 R e s u l t , 设其数量为 R5. I F ( R =0 ) o r ( 稳定值 > M a ) o r ( 迭代次数 > M b )6.  G O T O  1 27. E L S E8.   使用 R e s u l t 更新所有成员分类器的样本 Y i ,对 R e s u l t 中每一项数据进行检查, 更新成员分类器准确度, 设分类器 f i 准确分类了 R e s u l t中 r 项数据, 则 C (f i ) = ( C ( f i ) + r / R ) / 29.   选择准确性最高前 T O P 个成员分类器( 如果出现准确性相同的情况则使用选择) , 若组成与前次相比无变化, 则稳定值+1 , 否则稳定值归01 0.G O T O  21 1.选择准确度最高的 z 个成员分类器构成集成分类器 F r e s e m b l e = {f 1 , f 2 , …, f z }1 2.返回 F r e s e m b l e4  网络用户异常行为检测利用选择性协同学习所生成的集成分类器, 可从网络数据中检测网络用户异常行为. 然而网络的流量数据并不能被集成分类器直接识别, 还需要根据检测特征指标对网络流量数据进行预处理, 构造集成分类器可以识别的网络用户行为数据, 因此网过程1.   网络用户异常行为检测.输入: 集成分类器 F r e s e m b l e = {f 1 , f 2 , …, f z } , 每个成员分类器对应的特征指标子集{ F 1 , F 2 , …,F Z }输出: 检测结果1. 设本次迭代时间为 T , 上轮迭代得到的用户网络行为数据为 D T T -1 = dT -11, dT -12, …, dT -1n,2. 按特征指标 F o b j e c t = { C 1 , C 2 , …, C n } 进行测量, 得待检测的用户网络行为数据 D T T = dT1 , dT2 , …, dTn ,3. F O R 每个成员分类器 f i ∈ F a l l4.  将向量 D T T -1 按成员分类器 fi 对应的特征指标空间 F i 进行投影, 输入分类器 f i 中, 进行分类5. 整理向量 D T T -1 在 F r e s e m b l e 中每个分类器输出的分类标记结果, 进行投票6. 根据简单多数原则, 输出流量的最终标记, 若标记为 1 , 则为正常行为; 若标记为 -1 , 则为异常行为7. 返回检测结果, 进入下一轮迭代, g o t o  1
    5  实验与分析
    5 . 1  实验环境为验证本文检测方法的实际性能, 本文基于校园网中电子与信息工程学院两处实验楼局域网的实际网络环境进行实验, 网络环境拓扑结构如图3所示. 网络环境中共有约4 0 0多台主机, 两处实验楼分别有一台 C i s c o  C a t a l y s t  2 9 2 8路由交换机作为汇聚交换机, 使用百兆带宽链路出口与教育网路由器连接. 对汇聚交换机处的网络流量进行端口镜像, 所得数据供本文实验使用. 实验使用的软硬件平台设置如下: 软件采取自行开发并结合s v m l i b等相关软件的网络用户异常行为检测系统, 对应使用的数据库为S Q L S e r v e r 2 0 0 5 , 硬件配置为I n t e l  C o r e 2Q u a d  2 . 3GH z , 4G B 内存, 操作系统为 W i n d o w sX P  S P 3.两处实验楼作为电子与信息工程学院学生的专业课程实验及全校学生课余上网使用, 实验安排学生在该网络环境中进行预定的网络攻击行为( D D o S攻击域内服务器) 以及相应的各类正常行为( 包括W e b浏览、 视频点播以及非多线程的P 2 P文件下载等) , 因此可以采集到正常与异常的网络用户行为数据用于实验. 针对训练样本中的数据标记问题, 本文采取的方法是使用流量分析工具 L 7 - f i l t e r对正常行为进行标记, 然后根据实验安排结合防火墙告警信息、 服务器记录以及人工分析标记用户的恶意行为, 进而构建训练样本. 实验采集了2 0 1 2年9月1 7日从上午8 : 0 0到晚上2 1 : 0 0时间段内的约2 6G的网络流量, 从中获取用户行为数据. 根据检测方法设计, 本文需要根据测量指标对采集到的流量数据进行分析、 测量等预处理工作, 构建训练样本及检测数据. 因此参考文献[2 4 ] 使用如表1所示的2 3维测量指标对获取的用户流量进行测量.
    5 . 2  对照方法及评估指标为衡量和验证本文检测方法的准确性以及开销方面的性能, 本文采用2类对照方法: 一类为基于C o F o r e s t协同学习的检测方法( 分别使用S VM 、 朴素贝叶斯和 C 4 . 5的成员分类器) , 具备协同学习能力, 可使用部分标记数据样本进行训练; 另一类为基于单分类器的检测方法, 这类方法不进行协同学习,仅使用有标记数据进行训练.本文采用查全率、 查准率和调和平均值作为评价指标, 设用于检测的网络用户行为样本中, T P 表示被正确识别为异常行为的样本数, FN 表示被误判为正常行为的样本数, F P 表示被误判为异常行为的样本数, 评价指标如下:(1 ) 查全率( R e c a l l ) : R =T PT P + FN.(2 ) 查准率( P r e c i s i o n ) : P =T PT P + F P.(3 ) 调和平均值( F - m e a s u r e ) : F = 2× P × RP + R.查全率和查准率能反映检测方法针对异常行为的分类能力, 而查全率和查准率的调和平均值综合评价能力更好, 这3个指标应用较广泛, 几乎为所有研究采纳.
    5 . 3  实验方案及结果分析为了验证本文检测方法在网络用户行为数据存在非平衡性情况下, 能否在降低对训练样本中标记数据需求的同时确保准确性, 本文主要从以下方面进行验证: 首先验证异常行为数据的不同平衡程度下本文检测方法的准确性; 然后验证训练样本中标记数据的不同比例下本文方法的性能. 由于训练开销( 包括准备数据标记和训练分类器) 是决定检测方法能否快速准确检测异常行为的重要因素, 因此最后还对检测方法的开销进行了验证. 因此本文设计以下3个实验.
实验1. 验证在异常行为数据不同平衡程度下本文方法的性能. 其步骤为: 首先分析不同用户行为数据集中异常行为的比例, 然后选择比例不同的数据集构建训练样本分别进行选择性协同学习, 最后使用相同的验证数据( 从全部用户行为数据中随机抽取)比较不同平衡程度的训练样本下本文方法与对照方法的准确性. 实验1所使用的数据设置如表2所示.实验1的对比分析结果则由图4给出, 图4的(a ) 、 ( b ) 和( c ) 分别给出了训练样本中异常行为比例为 1 . 1 2% 、 5 . 3 2% 、 9 . 7 6% 、 2 0 . 6 0% 、3 1 . 6 2% 和4 1 . 7 6%时准确性指标的比较结果, 从中可以看出,由于选择性协同学习方法在样本处理环节对非平衡性的数据进行了有效处理, 在成员分类器集成环节则利用选择性集成进一步提高了准确性, 因此检测准确性在不同的非平衡程度上都较对照方法高( 与所有对照方法相比, 查全率提高至少约1 4 . 4个百分点、 查准率提高 1 7 . 3个百分点, 调和平均值提高2 0 . 3个百分点) , 尤其当异常行为数据比例极低( 例如异常行为比例仅为1 . 1 2%以及5 . 3 2% ) 时, 本文方法仍能取得8 0%左右的准确率( 对照方法普遍低于7 0% , 甚至接近6 0% ). 观察准确性的变化趋势则可看出, 对照方法大多存在着随训练样本中异常行为比例逐步提高而准确性逐步提高的现象, 当比例逐步接近均衡时( 如对照方法1在3 0%到4 0%比例间) 性能有较大提升, 说明对照方法的准确性与异常行为数据平衡程度正相关. 但本文方法性能在平衡程度较低的时候即可逐步趋于稳定( 异常行为比例在2 0%以上时即稳定在9 0%左右) , 这说明本文方法更能适应当今网络环境下用户异常行为数据比例较低的非平衡性特点.
    实验 2.   验证训练样本中不同标记数据数量下本文方法的性能. 其步骤为: 首先选择某一数据集( 本文选取异常行为数据比例在2 0%左右的数据集) 构建训练样本, 然后并分别设置样本中标记数据的比例, 构建相应的训练样本进行选择性协同学习,最后使用相同的验证数据比较本文方法与对照方法的准确性. 实验2所使用的数据设置如表3所示.实验2的对比分析结果由图5给出: 图5的( a ) 、(b ) 和( c ) 分别比较了训练样本中标记数据比例为5 % 、 1 0 % 、 1 5 % 、 2 0 % 、 2 5 %和3 0 %时各个指标的比较结果, 从中可以看出: 由于选择性协同学习方法在样本处理环节引入了非平衡性数据处理方法, 并把选择性集成技术引入到成员分类器协同学习和集成环节中, 从而有效地降低了对标记数据的需求, 提高了检测准确性, 因此检测准确性在不同的标记数据比例上都比对照方法要好( 与所有对照方法相比, 查全率至少领先约1 9 . 6个百分点、 查准率领先2 5 . 3个百分点, 调和平均值领先2 2 . 3个百分点) , 尤其当标记数据比例较低时( 仅5% ) , 本文方法准确性仍能超过8 0%. 观察准确性变化趋势可以看出, 对照方法存在准确性随着标记数据比例的上升而线性提升现象( 在标记数据比例从2 0%到3 0%时尤为明显) , 但准确性多在8 0%以下, 而当样本中标记数据的比例提高到3 0%以上时性能即趋于稳定(9 0%左右) . 说明对照方法的准确性与样本标记数据数量存在依赖关系, 而本文方法则更适应非平衡的训练样本, 能够使用更少的标记数据进行训练并取得更好的性能.点, 调和平均值领先2 2 . 3个百分点) , 尤其当标记数据比例较低时( 仅5% ) , 本文方法准确性仍能超过8 0%. 观察准确性变化趋势可以看出, 对照方法存在准确性随着标记数据比例的上升而线性提升现象( 在标记数据比例从2 0%到3 0%时尤为明显) , 但准确性多在8 0%以下, 而当样本中标记数据的比例提高到3 0%以上时性能即趋于稳定(9 0%左右) . 说明对照方法的准确性与样本标记数据数量存在依赖关系, 而本文方法则更适应非平衡的训练样本, 能够使用更少的标记数据进行训练并取得更好的性能.准备标记方面耗费的时间还是较训练的开销要高一个数量级( 标记数据耗时最多在3 h左右, 而训练方法的耗时最多仅在1 5m i n左右) , 因此降低检测方法对标记数据需求所节省的时间开销对实现快速检测用户异常行为更有实际意义, 例如标记9 0%的数据需要耗费至少约3 h , 而标记2 5%左右的数据仅需4 5m i n左右, 如果使用2 5%标记数据的检测方法在检测性能上能够与基于9 0%标记数据的方法相当甚至更优, 那么这种方法必然能够更为快速准确地应对用户异常行为. 因此本文比较了本文和对照方法在不同时间开销( 包括样本标记和分类器训练) 相对取得的检测性能的对照情况, 结果如图6所示.从图6可以看出, 本文方法使用较少的时间开销(2 0 0 0 s左右) 即可趋于较为稳定的性能( 约9 0%的准确程度) , 而对照方法在同样的时间开销条件下其检测性能都在7 5%以下, 需要更多的时间开销之后才能提高检测性能, 而获得接近9 0%的准确程度普遍需要6 0 0 0 s ~1 0   0 0 0 s甚至更多的时间. 充分说明本文方法有效地降低了对标记数据的需求, 同时仍能维持甚至提高检测准确性, 可以更为快速准确地检测用户异常行为.综合以上实验结果可知, 与传统的网络用户异常行为检测方法相比, 本文方法能够有效处理异常行为数据的非平衡性和分布复杂性, 在减少训练样本中标记数据量前提下获得更高的分类准确性能.
    6  总结和展望
    在用户规模日益扩大、 行为日趋多样化的当今网络环境下, 如何快速准确地检测出用户异常行为是网络管理人员的一大挑战. 在网络的大数据规模下, 传统基于无监督学习和监督学习的检测方法由于对网络数据进行标记的巨大开销而无法胜任, 基于协同学习的检测方法虽然降低了对标记数据的需求, 但不能处理实际网络数据所存在的非平衡和复杂分布的不足使其在准确性方面受到影响. 因此本文引入选择性集成技术对传统基于协同学习的检测方法进行改进, 提出基于选择性协同学习的检测方法, 使用基于多数类分布的改进 E a s y E n s s e m b l e方法, 将非平衡性和复杂分布的训练样本划分为若干平衡、 充分包含分布信息的样本子集, 随后使用基于混合扰动方法的成员分类器生成方法构造差异性成员分类器对样本子集进行协同学习, 从而获得非平衡数据的处理能力, 同时在协同学习过程中使用选择性集成分类方法进行置信度计算及更新数据以降低训练开销, 在成员分类器集成过程中基于准确性选择成员分类器, 剔除受噪音积累影响的成员以提高准确性, 最终使检测方法具备对非平衡、 复杂分布的数据处理能力, 同时进一步提高了准确性, 实现对用户异常行为快速准确的检测. 实际网络环境的实验表明, 本文检测方法在开销、 准确性等多个指标上比传统方法表现更好. 我们下一步的工作包括: 引入在线学习等方法实现检测模型的动态更新; 基于异常行为检测结果研究相应的网络用户行为控制机制, 最终实现网络用户行为的可感知、 可控制.
    参 考 文 献[ 1 ] L u o  J u n - Z h o u , H a n  Z h i - G e n g , W a n g   L i a n g - M i n. T r u s t w o r -t h y a n d  c o n t r o l l a b l e  n e t w o r k  a r c h i t e c t u r e  a n d  p r o t o c o l  f r a m e -w o r k. C h i n e s e  J o u r n a l  o f  C o m p u t e r s , 2 0 0 9 , 3 2 ( 3 ) : 3 9 1 - 4 0 4( i n  C h i n e s e )( 罗军舟,韩志耕,王良民.一种可信可控的网络体系及协议结构 . 计算机学报, 2 0 0 9 , 3 2 ( 3 ) : 3 9 1 - 4 0 4 )[ 2 ] L i n  C h u a n g , L e i  L e i .R e s e a r c h  o n  n e x t  g e n e r a t i o n  I n t e r n e ta r c h i t e c t u r e . C h i n e s e  J o u r n a l  o f  C o m p u t e r s , 2 0 0 7 , 3 0 ( 5 ) :6 9 3 - 7 1 1 ( i n  C h i n e s e )( 林闯,雷蕾 . 下一代互连网络体系结构研究.计算机学报,2 0 0 7 , 3 0 ( 5 ) : 6 9 3 - 7 1 1 )[ 3 ] C h a u h a n  A , M i s h r a  G , K u m a r  G.S u r v e y   o n  d a t a  m i n i n gt e c h n i q u e s  i n  i n t r u s i o n  d e t e c t i o n. I n t e r n a t i o n a l  J o u r n a l  o fS c i e n t i f i c  & E n g i n e e r i n g   R e s e a r c h , 2 0 1 1 , 2 ( 7 ) : 1 - 4[ 4 ] X i e  M i a o , H u  J i a n k u n , H a n  S o n g , C h e n  Hw a - H s i a o . S c a l a -b l e  h y p e r - g r i d   k - NN - b a s e d  o n l i n e  a n o m a l y   d e t e c t i o n  i n  w i r e -l e s s  s e n s o r  n e t w o r k s .I E E E  T r a n s a c t i o n s  o n  P a r a l l e l  a n dD i s t r i b u t e d  S y s t e m s , 2 0 1 2 , 2 4 ( 8 ) : 1 6 6 1 - 1 6 7 0[ 5 ] Z h a o  J i a n - H u a , L i  W e i - H u a . I n t r u s i o n  d e t e c t i o n  b a s e d  o ni m p r o v e d  S OM w i t h  o p t i m i z e d  GA. J o u r n a l  o f  C o m p u t e r s ,2 0 1 3 , 8 ( 6 ) : 1 4 5 6 - 1 4 6 3[ 6 ] J a i n  R , A b o u z a k h a r  N  S. H i d d e n  M a r k o v  m o d e l  b a s e da n o m a l y   i n t r u s i o n  d e t e c t i o n/ / P r o c e e d i n g s  o f  t h e  I n t e r n a t i o n a lC o n f e r e c e  f o r  I n t e r n e t  T e c h n o l o g y   a n d  S e c u r e d  T r a n s a c t i o n s ,L o n d o n , E n g l a n d , 2 0 1 2 : 5 2 8 - 5 3 3[ 7 ] E i d  H F , D a r w i s h  A , H a s s a n i e n  A  E , K i m T a i- h o o n. I n t e l -l i g e n t  h y b r i d  a n o m a l y   n e t w o r k  i n t r u s i o n  d e t e c t i o n  s y s t e m.C o mm u n i c a t i o n s  i n  C o m p u t e r  a n d  I n f o r m a t i o n  S c i e n c e , 2 0 1 2 ,2 6 5 : 2 0 9 - 2 1 8[ 8 ] S i v a t h a  S i n d h u  S  S , G e e t h a  S , K a n n a n  A.D e c i s i o n  t r e eb a s e d  l i g h t  w e i g h t  i n t r u s i o n  d e t e c t i o n  u s i n g   a  w r a p p e ra p p r o a c h. E x p e r t  S y s t e m s  w i t h  A p p l i c a t i o n s , 2 0 1 2 , 3 9 ( 1 ) :1 2 9 - 1 4 1[ 9 ] S a n g k a t s a n e e  P , W a t t a n a p o n g s a k o r n  N , C h a r n s r i p i n y o  C.P r a c t i c a l  r e a l - t i m e  i n t r u s i o n  d e t e c t i o n  u s i n g   m a c h i n e  l e a r n i n ga p p r o a c h e s . C o m p u t e r  C o mm u n i c a t i o n s , 2 0 1 1 , 3 4 ( 1 8 ) :2 2 2 7 - 2 2 3 5[ 1 0 ] H o r n g   S h i- J i n n , S u  M i n g - Y a n g , C h e n  Y u a n - H s i n , e t  a l .An o v e l  i n t r u s i o n  d e t e c t i o n  s y s t e m  b a s e d  o n  h i e r a r c h i c a l  c l u s t e -r i n g a n d  s u p p o r t  v e c t o r  m a c h i n e s .E x p e r t  S y s t e m s  w i t hA p p l i c a t i o n s , 2 0 1 1 , 3 8 ( 1 ) : 3 0 6 - 3 1 3[ 1 1 ]K a n g I , J e o n g   M K , K o n g   D.A  d i f f e r e n t i a t e d  o n e - c l a s sc l a s s i f i c a t i o n  m e t h o d  w i t h  a p p l i c a t i o n s  t o  i n t r u s i o n  d e t e c t i o n.E x p e r t  S y s t e m s  w i t h  A p p l i c a t i o n s , 2 0 1 2 , 3 9 ( 4 ) : 3 8 9 9 - 3 9 0 5[ 1 2 ] M o h a mm e d  M N , S u l a i m a n  N. I n t r u s i o n  d e t e c t i o n  s y s t e mb a s e d  o n  S VM  f o r  WL AN.P r o c e d i a  T e c h n o l o g y , 2 0 1 2 , 1 :3 1 3 - 3 1 7[ 1 3 ] P i s e  N N , K u l k a r n i  P.A  s u r v e y   o f  s e m i- s u p e r v i s e d  l e a r n i n gm e t h o d s / / P r o c e e d i n g s  o f  t h e  I n t e r n a t i o n a l  C o n f e r e n c e  o nC o m p u t a t i o n a l  I n t e l l i g e n c e  a n d  S e c u r i t y .S u z h o u , C h i n a ,2 0 0 8 , 2 : 3 0 - 3 4[ 1 4 ] L i  M i n g , Z h o u  Z h i  H u a . I m p r o v e  c o m p u t e r - a i d e d  d i a g n o s i sw i t h  m a c h i n e  l e a r n i n g   t e c h n i q u e s  u s i n g   u n d i a g n o s e d  s a m p l e s .I E E E  T r a n s a c t i o n s  o n  S y s t e m s , M a n  a n d  C y b e r n e t i c s , P a r tA : S y s t e m s  a n d  H u m a n s , 2 0 0 7 , 3 7 ( 6 ) : 1 0 8 8 - 1 0 9 8[ 1 5 ] Z h a n g   J i n y u a n , Y a n g   Y a n , W a n g   H o n g j u n , e t  a l .S e m i-s u p e r v i s e d  c l u s t e r i n g   e n s e m b l e  b a s e d  o n  c o l l a b o r a t i v et r a i n i n g .R o u g h  S e t s  a n d  K n o w l e d g e  T e c h n o l o g y , L e c t u r eN o t e s  i n  C o m p u t e r  S c i e n c e , 2 0 1 2 , 7 4 1 4 : 4 5 0 - 4 5 5[ 1 6 ] E r m a n  J , M a h a n t i  A , A r l i t t  M , e t  a l . O f f l i n e / r e a l t i m e  t r a f f i cc l a s s i f i c a t i o n  u s i n g   s e m i - s u p e r v i s e d  l e a r n i n g . P e r f o r m a n c eE v a l u a t i o n , 2 0 0 7 , 6 4 ( 9 ) : 1 1 9 4 - 1 2 1 3[ 1 7 ] M e n g   Y u x i n , Kw o k  L a m - f o r . I n t r u s i o n  d e t e c t i o n  u s i n g   d i s a -g r e e m e n t - b a s e d  s e m i - s u p e r v i s e d  l e a r n i n g : D e t e c t i o n  e n h a n c e-m e n t  a n d  f a l s e  a l a r m  r e d u c t i o n / / P r o c e e d i n g s  o f  t h e  C y b e r -s p a c e  S a f e t y   a n d  S e c u r i t y . L e c t u r e  N o t e s  i n  C o m p u t e rS c i e n c e  7 6 7 2.M e l b o u r n e , A u s t r a l i a , 2 0 1 2 : 4 8 3 - 4 9 7[ 1 8 ] L i  J i m i n , Z h a n g  W e i , L i  K u n l u n.A  n o v e l  s e m i- s u p e r v i s e dS VM  b a s e d  o n  T r i - T r a i n i n g   f o r  i n t r u s i o n  d e t e c t i o n. J o u r n a lo f  C o m p u t e r s , 2 0 1 0 , 5 ( 4 ) : 6 3 8 - 6 4 5[ 1 9 ] T s a i  C h i h - F o n g , H s u  Y u - F e n g , L i n  C h i a - Y i n g , L i n W e i-Y a n g . I n t r u s i o n  d e t e c t i o n  b y   m a c h i n e  l e a r n i n g : A  r e v i e w.E x p e r t  S y s t e m s  w i t h  A p p l i c a t i o n s , 2 0 0 9 , 3 6 ( 1 0 ) : 1 1 9 9 4 -1 2 0 0 0[ 2 0 ] M o o r e  A , Z u e v  D , C r o g a n  M.D i s c r i m i n a t o r s  f o r  u s e  i nF l o w - b a s e d  c l a s s i f i c a t i o n. I n t e l  R e s e a r c h , C a m b r i d g e : T e c h -n i c a l  R e p o r t  I R C - T R - 0 4 - 0 2 8 , 2 0 0 4[ 2 1 ] K i m H , C l a f f y   K  C , F o m e n k o v  M , e t  a l . I n t e r n e t  t r a f f i cc l a s s i f i c a t i o n  d e m y s t i f i e d : M y t h s , c a v e a t s , a n d  t h e  b e s tp r a c t i c e s / / P r o c e e d i n g s  o f  t h e  A CM C o N E X T  C o n f e r e n c e .M a d r i d , S p a i n , 2 0 0 8 : 1 1 - 2 3[ 2 2 ] V a l e n t i n i  G , D i e t t e r i c h  T  G. B i a s - v a r i a n c e  a n a l y s i s  o fs u p p o r t  v e c t o r  m a c h i n e s  f o r  t h e  d e v e l o p m e n t  o f  S VM  b a s e de n s e m b l e  m e t h o d s . T h e  J o u r n a l  o f  M a c h i n e  L e a r n i n gR e s e a r c h , 2 0 0 4 , 5 ( 6 ) : 7 2 5 - 7 7 5[ 2 3 ] S c h a p i r e  R  F , F r e u n d  Y , B a r t l e t t  P , L e e  W S. B o o s t i n g   t h em a r g i n : A  n e w  e x p l a n a t i o n  f o r  t h e  e f f e c t i v e n e s s  o f  v o t i n gm e t h o d s . T h e  A n n a l s  o f  S t a t i s t i c s , 1 9 9 8 , 2 6 ( 5 ) : 1 6 5 1 - 1 6 8 6[ 2 4 ] B a t i s t a  G u s t a v o  E  A  P  A , P r a t i  R  C , M o n a r d  M C. A  s t u d yo f  t h e  b e h a v i o r  o f  s e v e r a l  m e t h o d s  f o r  b a l a n c i n g   m a c h i n el e a r n i n g   t r a i n i n g   d a t a . A CM S I GK D D  E x p l o r a t i o n s  N e w s l e t-t e r , S p e c i a l  I s s u e  o n  L e a r n i n g   f r o m  I m b a l a n c e d  D a t a s e t s ,2 0 0 4 , 6 ( 1 ) : 2 0 - 2 9[ 2 5 ] L i n  Z h o u ,F e n g J i a n g . A  r o u g h  s e t  a p p r o a c h  t o  f e a t u r e  s e l e c -t i o n  b a s e d  o n  r e l a t i v e  d e c i s i o n  e n t r o p y / / P r o c e e d i n g s  o f  t h eR o u g h  S e t s  a n d  K n o w l e d g e  T e c h n o l o g y .L e c t u r e  N o t e s  i nC o m p u t e r  S c i e n c e  6 9 5 4. B a n f f , C a n a d a , 2 0 1 1 : 1 1 0 - 1 1 9
 
[返回]
上一篇:模糊格构造型形态神经网络
下一篇:基于DBN模型的遥感图像分类