欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
硕士论文
当前位置:首页 > 硕士论文
迁移组概率学习机
来源:一起赢论文网     日期:2015-04-26     浏览数:3781     【 字体:

 摘  :   基于组概率的学习方法因其能够很好地保护数据的隐私性而成为近年来机器学习领域的研究热点. 已有的组概率学习方法虽然取得了一定的效果, 但是在模型训练时仅考虑单一的场景信息, 如果在当前领域所采集的数据信息有限, 则在当前领域下建立的分类模型泛化能力较差. 针对此问题, 提出了一种基于组概率和结构风险最小化模型的迁移组概率学习机( TGPL M). 该方法通过构造领域相似距离项来引入历史领域的先验知识, 提出了针对类标签保护数据的增强型分类器优化目标学习准则, 以期在有效利用当前领域数据类标签组概率信息的同时借鉴历史领域相关知识来指导当前领域下的学习任务. 基于模拟、UCI PIE 人脸等数据集上的实验结果表明, 本文所提之方法是有效的.

关键词:  迁移学习;分类;支持向量机;组概率

1引言 

目前 ,在政治选举 、欺诈检测和垃圾邮件过滤等领域 ,利用数据的组概率知识来解决模式分类问题受到越来越多的关注 [ 1 4] . 如文献[ 2] 中的投票选举事件 ,对于整个参加选举的地区( 或区域) 每张选票的结果是不公开的 ,但对该地区( 区域等) 划分的各个子区域而言 ,关于每个候选人的得票情况是清楚的 ,这些数据就构成了该区域内各个候选人的类标签组概率 ,若能对这些组概率数据进行有效地的分析 ,那么其分析的结果可以为未来所进行的选举提供一种有价值的参考 . 此类情况在欺诈监测 [2] 和垃圾邮件鉴别 [ 4] 等领域同样大量存在 ,其特点是仅已知数据分组的类标签组概率的条件下的类别判定任务 ,其是一种介于有监督学习和无监督学习之间的一种特殊的半监督学习方法 . 组概率信息的优势是对原始数据提供的隐私保护性 ,而隐私保护恰是当前社会关注的重点及研究的热点之一 [5 7] ,这就使得如何利用组概率信息构建一种精度高 ,泛化能力强的数据分类模型变得十分重要 .

目前为了解决上述场景下的数据分类任务已存在一些研究成果及相应的处理策略 [ 2,3] ,其中有代表性的工作是 2010 Stefan Rueping 提出的反向标定支持向量机( Inverse Calibration Support vector machine, IC-SVM),但该方法却忽略了对历史相似场景数据的利用 . 迁移学习 [ 8 10] 作为一种有效利用历史数据的新型学习策略 ,放松了对训练数据和测试数据同分布的要求 , 从而使得当前的学习过程更为快速有效 [ 8,9] . 众多学者已就迁移学习相关问题展开了深入研究 ,有代表性的有洪佳明等人 [ 11] 提出的基于领 域相似性 的迁移学 习方法( TrSVM),Gao 等人 [ 12] 提出的局部加权嵌入学习算法( LWE) Brian 等人 [ 13] 提出一种基于特征空间的大间隔直推式迁移学习方法( LMPROJ) . 这些研究充分说明了迁移学习作为一种机器学习新方法的有效性和实用性 .本文从迁移学习的角度重新审视了上述仅含组概率信息的数据分类问题 ,构造了一种新颖的迁移组概率学习机( Transfer Group Probabilities based Learning Ma-chine,TGPLM).

该方法的主要思想在于将当前领域( 目标领域) 的数据组概率知识和历史领域( 源领域) 的已标注数据融入结构风险最小化学习框架中 , 通过构造领域相似距离项来实现不同领域知识的迁移 , 从而构造了一种基于迁移学习机制的优化目标学习准则 ,并通过相关的理论得证新分类器的求解过程依然是一个二次规划( Quadratic Programming,QP) 问题 . 相较于现有的相关方法 ,本文工作具有如下优势 : ( 1),新方法同时借鉴了历史数据和新领域数据组概率 ,最大程度体现了当前和历史领域迁移学习过程中的相似知识提取和领域间相互学习的能力 ; ( 2),由于继承了基于经验风险最小化框架的支持向量机的优点 , 使得所提方法的寻优能力在理论上得到了保证 ; ( 3) 将组概率信息作为一种知识的具体表现形式用以进行地知识迁移 , 提高了算法的隐私保护性 , 这也是以往的类似算法所不具备的 .

2  反向标定技术( IC) 

文献[ 2] 提出了基于 Platt 模型 [14] 的反向标定技术( Inverse Calibration,IC) ,从而将组概率信息应用在数据分类问题上 . 为了在后文中引出本研究的 TGPLM 方法本节将对反向标定技术 IC做简要描述 .Platt标定技术最初用来标定支持向量机 [ 15] ( Sup-port VectorMachine,SVM) 的输出 , 文献[ 16] 提出了利用Sigmoid 函数估计 SVM 后验概率的输出方法 ,p( y =1 x)=1/( 1 +exp(-Af( x)+B) ), ( 1)( 1) x 为样本特征向量 , y 为样本标签 , y {-1 ,1},p( y = 1 x) 为标签为正的概率 , 参数 A B 通过最小交叉熵获得 . 文献[ 2] 所提反向标定技术( InverseCalibration) 的主要思想是 : A=1 B =0, 则式( 1) 可化成如下形式 : p =σ ( y)=11 +exp(-y)( 2)变形得 : y =σ-1 ( p)=-log( 1p-1) ( 3)( 3) p 为标签为正的样本概率 . 实际应用时为了避免出现无效的 y ,限定 p [ ε ,1 -ε ] , ε 为分类估计器精度 .由于实际情况下是很难获取每个样本数据所对应的类标签概率 ,所以更合理的方式是用组 S i 中类标签估计的平均值来逼近分组类标签的预测值 ,即式( 4):i :1S i ( wT x j +b) y i( 4)其中( w , b) 为样本分类超平面 f( x)=w T x +b 的参数对 ,该式可构建适用于类标签隐藏仅知组概率的数据的支持向量机方法 ,详细过程参见文献[ 2] .

3  迁移组概率学习机 

本文以结构风险最小化模型及相关的组概率知识构造了迁移组概率学习方法模型 ,其原理如图 1 所示 . 由图 1 可知所提方法从已标记的历史数据和具有类标签组概率信息的当前数据这两者中全面地获取了有用知识 ,这样既保护了当前所研究数据类标签的隐蔽性 ,又同时借助历史数据和当前领域数据类标签概率来改善算法因类标签保护所带来的性能下降之缺陷 .

3. 1  融合数据和组概率的目标函数构造本文将研究重点置于最基本的二元分类问题上 , TGPLM 算法的具体形式构造如下 :minf h , f c H K Jhistory ( f h )+J current ( f c ) +λ d( f h , f c )( 5)其中 ,J history ( f h )=C h V h ( D h , f h )+ 12f h2K ,J current ( f c ) =C c V c ( D c ,f c )+ 12f c2K针对式( 5) 给出如下说明 :( 1) f h 为历史领域D h 和当前领域D c 学习得到的决策函数 ; H K 为特征空间下的函数集合 .( 2) J history ( f h ) 为历史领域的风险函数 , 包含结构风险项 f h2K 和经验风险项 V h ( Dh, f h ),其中 f h2K f h 在特征映射核空间的 L 2 范式 , C h 为历史领域正则化参数 .( 3) J current ( f c ) 为针对当前领域的风险函数 ,包含结构风险项 f c2K 和经验风险项 V c ( Dc , fc ) ,其中f c2K f c 在特征映射核空间的 L 2 范式 , C c 为当前领域正则化参数 .( 4) d( f h , f c ) 为当前领域和历史领域间差异项 , λ为d( f h , f c ) 的惩罚程度控制参数 .对于 d( f h , f c ) ,本文引入了如下具体实现形式 :d( f h , f c ) = 12( w c -w h2 + ( bc -b h )2 )( 6)( 6) ( w c , b c )( w h , b h ) 分别定义了当期领域和历史领域数据的分类超平面 .进一步地 , SVM 学习框架为基础 ,结合公式( 4),( 5)( 6),本文给出 TGPLM 的原始优化问题 :minw c , w h ,b c , b h12w c2+ 12w h2 +Ch ni = 1ξhi +C c n+ di = n+ 1( ξi +ξi )+λ2( w c -w h2 +( bc -b h )2 )( 7)s. t . y i ( w Th x i +b h ) 1 -ξhi , i =1 , …,n ,di=1 : 1S ij S i( w T c x j +b c ) y i -εi -ξ i ,i =n +1, …, n +d ,di=1 : 1S ij S i( w T c x j +b c ) y i +εi +ξi,i =n +1, …, n +d .其中 ξhi , ξ i , ξi0, ξ=[ ξh1 , …, ξhn , ξ 1 , …, ξ d , ξ1, …,ξ*d ]T为松弛向量 ; y i , i =n +1, , n +d 为反向标定输出值 ; n 为历史领域样本数 , d 为当前领域分组数 ,本文参考文献[ 2] 的相关分组策略 , 所分每组样本个数相同 ; C h C c 为为历史领域和当前领域领域正则化参数( 惩罚误差程度) .对式( 7) 所示优化目标函数 ,本文给出如下说明 :( 1)12w c2+ 12w h2+C hni= 1ξhi +C c n+ di = n + 1( ξi +ξ*i ) 分别表示历史领域数据和当前领域数据的结构风险项和经验风险项 .( 2)λ2( w c -w h2 + ( bc -b h )2 ) 反映了当前领域和历史领域分类器的差异程度 .( 3) 约束条件 y i ( w T h x i +b h )1 -ξhi , i =1, , n ,是为了保证历史领域中分类器尽可能正确分类 . 而约束条件di= 1 : 1S ij S i( w T c x j +b)y i -εi -ξ i di= 1 S ij S i( w T c x j +b)y i +εi +ξi, i =n +1, …, n +d ,则表示在当前领域中关于数据子集的 S i 的决策值与p i的反向标定值尽可能接近 .( 4) εi 为当前领域数据子集 S i 中反向标定而得 y i的逼近精度 , 本文采用文献[ 2] 相同的方法 , εi =ε p i ( 1-p i ),其中 p i S i 中标签为正的数据的组概率 , ε ′为一个较小的正常数 .这里值得指出的是 , 针对数据分布相近时的学习问题已有不少的研究工作 ,如在多视角学习 [ 17] 和模糊系统建模 [ 8] 方面的研究 , 与之相比本文工作的特点在于采用了不同的知识迁移策略 ,即通过历史领域的分类超平面参数来指导当前领域的分类超平面参数的学习 . 另外 ,值得指出的是本文工作的迁移学习涉及到组概率信息 ,这也是相关文献未曾涉及到的 .

3. 2  相关定理推导和证明式( 7) 所示原始问题可转化为如下的对偶问题进行求解 :  定理 1   TGPLM 原始优化问题的对偶问题为 :  minβ12β T Kβ +  e T β  s . t. f T β =0 .( 8)其中   β = [ αh, α , α ] T,0 ≤β [ C h , ,C hnC c , …, C cdC c , …, C cd] ,f T = [ y 1 , …,y n ,1 , …,1d, -1 , …, -1d] ,e =[ 0 , …,0n, ε -y ,ε +y] ,K =1+λ1+2λK h,h + 1λλ1+ 2λK h,c -λ1+2λK h,cλ1+2λK T h,c1+λ1+2λK c,c - 1+λ1+2λK c ,c-λ1+2λK Th,c- 1+λ1+2λK c,c1+λ1+2λK c ,c( n+ 2d) × ( n+ 2d),  K h, h = ( y i y j k( x i , x j ) )i, j=1, …, n ,  K h, c = (y iS kj S k k( xi ,x j ) ) i=1, …, n, k=1, …, d ,  K c, c =(1S i S ji S ij S j k( xi ,x j ) ) i ,j= 1, ,d .  证明   最小值问题式( 7) 的拉格朗日函数为 :L( w c , w h , b c , b h , ξ , ξ , ξ h, α , α , α h )= 12w c2 + 12w h2 +Ch ni = 1ξhi +C c n + di = n+ 1( ξi +ξi )+λ2( w c -w h2 +( bc -b h )2 ) -ni = 1r hi ξhi - n+ di =n+ 1r iξi - n + di = n+ 1ri ξi - ni = 1αhi ( y i ( wTh x j +b h ) -1 +ξhi ) 一般地 ,真实样本空间很难做到准确划分 , 为此需要进行核化 ,其实质是找到一个合适的映射 φ: x i R d ※φ ( x i ) R D ( d <<D) ,并用核函数 k(μ , v) 表示映射后的内积 φ ( μ )T φ ( v),令  定理 2 [ 19]: ( 8) 所示对偶问题所转化的二次规划问题为凸二次规划问题 .  证明   ( 8)   K 可以表示成如下形式则易见  K 1 =Q T 1 Q 1 , 所以  K 1 是半正定矩阵 , 同理可知K 2   K 3 也是半正定矩阵 ,所以  K 为半正定矩阵 ,由此得证式( 8) 所示二次规划为凸二次规划 . ( 证毕)  定理 3[19]: 求解式( 8) 的二次规划问题得到的解为全局最优解 .  证明   因为式( 8) 的二次规划为凸二次规划 , KKT 条件也是充分条件 , 因此得到的二次规划的解为全局最优解 . ( 证毕)  定理 4 [ 19]:   β =(  αh,  α,  α ) T是对偶问题式( 8) 的解 ,则式( 7) 所示 TGPLM 的原始优化问题对于 w cb c 的解存在全局最优解 ,并可表示为 :w c=λ1+2λ ni = 1αhi y i x i + 1 +λ1 +2λ n + di = n+ 1α i -  αiS ij S i xj( 18)bc=y i -λ1+2λ nj= 1αhj y jS ik S i k( xj , x k )- 1 +λ1+2λ n+ dj =n+ 1αj -α*jS j S il S jk S i k( xl , x k ) )( 19)  证明   根据定理 2 以及定理 3 的证明 ,可知式( 8)为凸二次规划 ,而又根据定理 3 的满足条件可知该二次规划的解为全局最优解 .因此 ,  β =(  αh,  α,  α ) T为式( 8) 的解 , 那么根据式( 12) ( 13) 可解得 :w c=λ1+2λ ni = 1αhi y i x i + 1 +λ1 +2λ n + di = n+ 1α i -  αiS ij S i xj ,选取 n 个αhj 位于开区间( 0, C h ) , d α j 和α*j 位于开区间( 0 , C c ) 的分量(  a hj ,a j ,  aj )T,可以计算得出bc=y i -λ1+2λ nj= 1αhj y jS ik S i k( xj , x k )- 1 +λ1+2λ n+ dj =n+ 1αj -α*jS j S il S jk S i k( xl , x k ) ),由此得到的 wcb c则为原始问题( 7) 的全局最优解 . ( 证毕)这里值得指出的是 ,对于式( 18) ( 19) 所给出的最优解同时包含了从当前领域和历史领域的信息 , w c中λ1+2λni= 1 αhi y i x i 部分为从历史领域中学习得到的知识 ,1 +λ1+2λ n+ di =n+ 1αi -  αiS ij S ix j 部分则为从当前领域中学习获取的知识 .

3. 3  TGPLM 算法流程由上述分析可得 TGPLM 方法的具体步骤如表 1 所示 .

3. 4  TGPLM 的问题复杂度分析TGPLM 的训练复杂度主要由其对应的二次规划问题决定 ,以经典的二次规划问题解法为例 [ 15] ,所提方法空间复杂度为( O( N 2 ) ) ,时间复杂度为( O( N 3 ) ) , N =n+d ,其中 n 为历史领域样本个数 , d 为当前领域样本分组数 .

4  实验结果与分析 

本节将在几种不同类型的数据集上进行实验 : ( 1)人工二维团状随机高斯型数据集 ; ( 2) 不同领域真实数据集( 包括 20Newsgroup [ 20, 21] , Reuters [ 20, 21] , 垃圾邮件检测数据集 [9 22] 和入侵检测分类数据集 [ 12] ) ; ( 3) 人脸图像分类数据集 PIE [23] .对测试人造数据集中主要引入 SVM [24] ,IC-SVM [2]两种算法进行比较 ; 在测试真实数据集的实验中主要引入 SVM ,TSVM [25] ,TrSVM [ 11] ,LWE [ 12] , LMPROJ [13] 五类算法进行比较 .本文方法与其他方法进行学习能力比较时 ,以当前领域数据分类的精度为所提方法评价指标 , 具体的指标为 : Accuracy ={ x x c D c f( x i )=y c }{ x x c D c },其中 D c表示当前领域数据集 , y c 表示 x c 的真实标签类别 , f( x)为使用学习所得分类器对 x c 进行分类所得结果 .本文所有实验均通过网格搜索的方式来确定优化的实验参数 . 判定参数性能的标准采用文献[ 2] 相同的策略 ,在训练集上以 10 倍交叉验证时所得分类精度为评价指标 . 在核函数选择上均采用高斯核函数 ,核宽度参数 2σ2以源领域样本的平均 2 范数的平方 s 为基准 ,并在网格{ s64,s32,s16,s8,s4,s2, s , 2s ,4s ,8s ,16s , 32s ,64s} 中搜索最优值 ; TGPLM 的正则化参数 C h C c 在网格{ 2 - 8 ,2 - 7 ,2 - 6 ,2 - 5 ,2 - 4 ,2 -3 ,2 - 2 ,2 -1 ,2 0 ,2 1 ,2 2 ,2 3 ,2 4 ,2 5 ,2 6 ,2 7 ,2 8 ,2 9 ,2 10 } 中搜索最优值 ; 平衡参数 λ在区间{ 2 -6 , 2 -5 , 2 -4 , 2 - 3 , 2 - 2 , 2 - 1 , 2 0 , 2 1 ,2 2 , 2 3 , 2 4 , 2 5 , 2 6 , 2 7 ,2 8 ,2 9 ,2 10 ,2 11 } 中搜索最优值 . 所有实验均在 Intel Core2 ,2. 0GHz 主频 ,2G RAM ,Windows XP 系统下执行 ,SVM 算法由 Libsvm[ 26]软件实现 ,其他算法均在 Matlab R2009A环境下实现 . 对于所有数据集 ,历史领域和当前领域数据均具有标签信息 , 但当前领域标签信息仅用于学习方法分类性能的客观量化评价 .

4. 1  人工数据集如图2 所示 ,本人工生成两个分布服从不同团状高斯分布的二类 2-D 样本集 ,分别代表历史领域( HD) 和当前领域( CD),HD CD 中正负样本点数均为 50 . HD中样 [ 1. 2923 1. 3959] , [ 2. 90592. 7528] , CD 中样本 均值 [ 1. 2516 2. 1858] , 差为[ 2. 3416 0. 9897] ,其中 HD +,HD - CD +,CD -分布代表源领域和目标领域中正类和负类样本 . 实验中当前领域分组中数据个数 K 分别取 2 ,4, 8,16 ,每组中正类样本所占比例作为其组概率信息 . 2 给出了不同分组下的实验结果 ,同时图 2 给出了 K =8 TGPLM 的分类超平面和其他两种方法的分类超平面 . 根据表 2 和图 2 ,我们给出如下观察 :( 1) 由表 2 可以看出: 当每组内样本个数为 2 ,IC-SVM 与所提方法具有相同的分类性能 ,这说明在组概率信息较为丰富时 ,迁移学习机制已不能带来有益帮助 ;随组内数据量的增加,所提方法因采用迁移学习机制相对于非迁移学习的 IC -SVM 方法的优势逐渐明显 .( 2) 根据图 2 所得之实验结果可以看出 : SVM 仅考虑了历史领域样本分类效果达到最优 ,导致领域适应性能最差 ; IC -SVM 忽视了历史领域的信息来辅助学习,分类效果也不理想; 所提方法 TGPLM 则继承了SVM IC -SVM 方法的优点 ,既利用了当前领域的类标签概率信息 ,还充分考虑了领域间的相似性,从而获得了较好的决策分割线 ,性能在一定程度上优于 SVM IC-SVM 方法 .

4. 2  真实数据集根据 4. 1 小节中人工数据实验分析可知 ,若组内数据个数过少 ,数据的隐私保护性能降低 ; 而组内数据过多则可利用的信息量急剧减少 ,组概率学习机不能有效的工作 ,综合考虑如上因素 ,下面各实验均将当前领域数据集每组数据的个数设置为 8, 每组正类样本的比例作为该组的组概率信息 . 实验所采用的数据集及各种算法的分类效果如下 :( 1) 不同领域真实数据集 . 包括跨领域文本数据集Reuters 20Newsgroups,垃圾邮件过滤数据集和入侵检测数据集 . 各数据集预处理参见对应参考文献 ,详细信息见表 3 所示 ,相应的实验结果见表 4 所示 . ( 2) PIE 人脸数据集 . PIE 数据库包含 68 个人的41368 幅人脸灰度图像 ,随机选取 1 名男性和 1 名女性, 170 幅人脸图像构成一个二类数据集进行实验 . 分别进行逆时针旋转 10 30 50 ,以形成变化的当前领域图像数据集 . 实验前 , 对上述图像集进行预处理 ,使得其缩放到 32 ×32 像素大小 ,且每个像素为 256 灰度级 ,则在图像空间,每幅图像由一个 1024 维的向量表示 . 3( a) 和图 3( b) 分别显示了旋转前后的部分图像 ,对应的男性标签为 1 , 女性标签为 35 . 5 给出了不同算法在 PIE数据集上的实验结果 .  

根据上述真实数据集上的实验结果可得如下结论 :( 1) 基线算法 SVM 在几乎所有数据集内分类性能低于其他迁移学习方法 ,另外一个分类方法 TSVM 的分类效果也普遍不佳 ;( 2) 由于充分考虑了当前领域数据的类标签概率信息及历史领域样本的辅助信息 ,TGPLM 方法在上述各种种数据集上的分类精度绝大部分都优于其它几类迁移学习方法 . 同时上述的实验结果也进一步地说明了利用类标签概率的迁移学习分类方法的有效性 .

4. 3  参数敏感实验

4. 3. 1   参数敏感实验 1本节将考察历史领域和当前领域的结构风险正则化参数 C h C c 相关取值对所提方法性能的影响 . 选用20Newsgroup 数据集中的 Comp vs. Talk 子数据集 ,具体的实施方案如下 : 首先 ,固定 C h =20,分别取 C c 10 20 30 40,实验结果如图 4( a) 所示 ; 其次 ,同样地固定 C c=20,此时 C h 则分别取10 20 30 40,实验结果如图 4( b) 所示 . 实验结果说明随参数 C c C h 之间的比例变化,所提算法分类性能变化不大 ,也表明了所提方法对于历史领域和当前领域正则化参数的微小变化存在鲁棒性 .

4. 3. 2   参数敏感实验 2本节考察当前领域数据所分子集样本个数 K 与可调参数 C 、λ对算法性能的影响 . 以表 3 2 Reuters数据集作为实验数据 ,采用两种实验策略 : ( 1) K =8 ,分别对 C λ 进行实验分析 ,具体的结果如图 5( a( b) 所示 ; ( 2) 对实际应用参数 K 取不同值时所提方法最佳性能变化规律进行分析 ,具体如图 5( c)所示 . 由所得实验结果可得如下结论 :( 1) 由于所提方法在原理上是基于结构风险最小化学习模型而构造的方法 , 所以正则化参数 C 对分类效果有较大程度上的影响 , 这说明了对参数 C 协调的重要性 .( 2) 随领域间惩罚参数 λ取值逐渐增加 ,TGPLM 方法分类性能先缓慢上升后急剧下降 . 这是因为在 λ取值很小时 ,所提方法几乎完全依赖当前领域的类标签概率信息进行知识学习 ,所以精度不高 ; 随着 λ取值的增大 ,所提方法在借鉴当前领域的类标签概率信息的同时学习了历史领域的辅助知识 ,从而获得了最优分类效果 ; λ 取值很很大时 , 所提方法过分依赖了历史领域的辅助知识 , 忽视了历史领域和当前领域数据分布的差异 ,TGPLM 方法与 SVM 方法所得的决策超平面被强制性趋同 ,导致了负迁移 , 使得新方法的分类性能下降 .( 3) 随着当前领域中数据分组内数据数目 K 的增加 ,TGPLM 方法分类性能呈现逐渐下降的趋势 . 这是因为伴随 K 的增加 ,整个当前领域的分组数目将会减少 ,类标签概率信息也会随之减少 , 所以导致所提方法的分类性能下降 .

5  结论 

本文从迁移学习角度对当前领域仅已知类标签概率信息的模式分类问题进行了探讨 , 将历史领域的样本信息和当前领域的类标签概率信息同时纳入目标决策函数的构造中 ,提出一种迁移组概率学习机 TGPLM .在人工和真实数据集实验结果表明 ,所提 TGPLM 方法不仅具备了 SVM 算法易实现的优点 , 还具有相似领域的知识迁移学习和目标领域类标签信息保护的功能 .对于本文方法今后依然在如下方面值得进一步探讨 :( 1) 多分类问题方面的扩展 . 由于所采用的反向标定技术仅适用二分类问题 , 这使得本文方法还不适于多类分类 . 今后我们将致力于研究一种适用于多类分类的迁移组概率学习机 ; ( 2) 大数据集方面的扩展 . 在历史领域样本较大或当前领域组数较多的情况下 , 如何进行更为快速有效地进行迁移组概率学习机模型的构建也是我们今后尚需研究的内容 .

参考文献[ 1] Stolpe M, Morik K. Learning from Label Proportions by Opti-mizing Cluster Model Selection[ A] . ECML PKDD 2011[ C] .Berlin, Heidelberg, 2011, Part III , Vol. 6913, 349-364.[ 2] Rǜping S. SVM classifier estimation from group probabilities[ A] . Proceedings of 27th ICML[ C ] . Haifa, 2010: 911-918.[ 3] Quadrianto N, Smola A J, Caetano T S, et al. Estimating labelsfrom label proportions[ A] . Proceedings of 25th ICML[ C] .Omnipress, 2008. 776-783.[ 4] Quadrianto N, Smola A J, Caetano T S, et al. Estimating labelsfrom label proportions[ J] . Journal of Machine Learning Re-search, 2009,( 10): 2349-2374.[ 5] 韩建民, 于娟, 虞慧群, . 面向敏感值的个性化隐私保护[ J] . 电子学报, 2010, 38( 7) : 1723-1728.Han J M, Yu J, Yu H Q, Jia J. Individuation privacy preserva -tion oriented to sensitive values[ J] . Acta Electronica Sinica,2010, 38( 7): 1723-1728. ( in Chinese)[ 6] 胡文军, 王士同. 隐私保护的 SVM 快速分类方法[ J] . 电子学报, 2012, 40( 2): 280-286.HU W J, WANG S T. Fast classification approach of supportvector machine with privacy preservation[ J] . Acta ElectronicaSinica. 2012, 40( 2) : 280-286. ( in Chinese)[ 7] 张战成, 王士同, 钟富礼. 具有隐私保护功能的协作式分类机制[ J] . 计算机研究与发展, 2011, 48( 06) : 1018-1029.Zhang Z C, Wang S T, Fu L C. Collaborative classificationmechanism for privacy -preserving[ J] . Journal of Computer Re-search and Development. 2011, 48( 6): 1018 -1028. ( in Chi-nese). [ 8] 蒋亦樟, 邓赵红, 王士同. ML 型迁移学习模糊系统[ J] . 自动化学报, 2012, 38( 9): 1393-1409.Jiang Y Z, Deng Z H, WangS T. Mamdani-larsen type transferlearning fuzzy system[ J] . Acta Automatica Sinica, 2012, 38( 9): 1393-1409. ( in Chinese )[ 9] Tao JW , ChungF L, Wang S T, On Minimum distribution dis-crepancy support vector machine for domain adaptation[ J] . Pat-tern Recognition, 2012, 45( 11): 3962-3984.[ 10] 于重重, 田蕊, 谭励, 涂序彦. 非平衡样本分类的集成迁移学习算法[ J] . 电子学报, 2012, 40( 7): 1358-1363.Yu C C, Tian R, Tan L, Tu X Y. Integrated transfer learningalgorithmic for unbalanced samples classification[ J] . ActaElectronica Sinica, 2012, 40( 7): 1358-1363. ( in Chinese)[ 11] 洪佳明, 印鉴, 黄云, . 一种基于领域相似性的迁移学习算法[ J] . 计算机研究与发展, 2011, 48( 10): 1823-1830.Hong J M, Yin J, Huang Y, et al. TrSVM: A transfer learningalgorithm using domain similarity[ J] . Journal of ComputerResearch and Development, 2011, 48( 10): 1823 -1830. (inChinese)[ 12] Gao J, Fan W , Jiang J, Han JW . Knowledge transfer via mul-tiple model local structure mapping[ A] . Proceedings of the14th ACM SIGKDD International Conference on KnowledgeDiscovery and Data Mining[ C] . New York, USA: ACM,2008. 283-291.[ 13] Quanz B, Huan J. Large margin transductive transfer learning[ A] . Proceedings of the 18th ACM conference on Informationand knowledge management[ C] . New York, USA: ACM,2009. 1327-1336.[ 14] Platt J C. Probabilistic outputs for support vector machines andcomparisons to regularized likelihood methods[ A] . Advancesin Large Margin Classifiers[ C] . Cambridge: MIT Press, 1999.61-74.[ 15] Vapnik V. The Nature of Statistical Learning Theory[ M] .New York: Springer -Verlag, 1995. 123-167.[ 16] Caruana R and Niculescu M A. Predicting good probabilitieswith supervisedlearning[ A] . Proceedings of the 22nd Interna -tional Conference on Machine Learning[ C] . Bonn, Germany,2005. 625-632.[ 17] Sun S L. Multi-view LaplacianSupport Vector Machines[ A] .Proceedings of the 7th international conference on AdvancedData Mining and Applications[ C] . Beijing, China, 2011: 209-222.[ 18] Scholkopf B, Herbrich R, Smola A J. A generalized represen-ter theorem[ A] . Proceedings of Conference on Learning The -ory[ C] . Amsterdam: Springer Press, 2001. 416-426. [ 19] 邓乃杨, 田英杰. 数据挖掘的新方法— —支持向量机[ M ] . 北京: 科学出版杜, 2004.Deng N Y, Tian Y J. New Method in Data Mining: SupportVector Machine[ M] . Beijing. China: Science Press, 2004. ( inChinese)[ 20] Xiang E W , Cao B, Hu DH, Yang Q. Bridgingdomains usingworld wide knowledge for transfer learning[ J] . IEEE Transac -tions on Knowledge and Data Engineering, 2010, 22( 6): 770-783.[ 21] Bruzzone L, Marconcini M. Domain adaptation problems: ADASVM classification technique and a circular validationstrategy[ J] . IEEE Transactions on Pattern Analysis and Ma -chine Intelligence, 2010, 32( 5): 770-787.[ 22] Bickel S. ECML-PKDD Discovery Challenge 2006 Overview[ A] . Proceedings. ECML/PKDD Discovery Challenge Work-shop[ C] . Berlin, Germany, 2006.[ 23] He X F, CaiD, Partha N . Laplacian score for feature selection[ A] . Advances in Neural Information Processing Systems18[ C ] . M A: MIT Press, 2006. 507-514.[ 24] Vapnik V. Statistical Learning Theory[ M] . John Wiley andSons, 1998.[ 25] Joachims T. Transductive inference for text classification usingsupport vector machines[ A] . Proceedings of 16th Inter -nation-al Conference on Machine Learning[ C ] . San Francisco, CA:Morgan Kaufmann Publishers, 1999. 200-209.[ 26] Chang C C, Lin C J. LIBSVM: A library for support vectormachines[ J/OL] . http: //www. csie. ntu. edu. tw/ cjlin/libsvm, 2001.

[返回]
上一篇:无线传感器网络通信负载状态识别方法的研究
下一篇:隐形的手: 政治基因对企业并购控制倾向的影响