欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
博士论文
当前位置:首页 > 博士论文
面向隐私安全的联邦决策树算法
来源:一起赢论文网     日期:2022-10-11     浏览数:594     【 字体:

 44 卷第10 2021 10 月计算机学报CHINESE JOURNAL OF COMPUTERSVol. 44 No. 10Oct. 2021面向隐私安全的联邦决策树算法郭艳卿1) 王鑫磊1) 付海燕1) 刘航1) 姚明21)(大连理工大学信息与通信工程学院辽宁大连1160242)(深圳市洞见智慧科技有限公司数据智能部北京100007)摘要根据用户信息进行资质审查是金融领域的一项重要业务,银行等机构由于用户数据不足和隐私安全等原因,无法训练高性能的违约风险评估模型,从而无法对用户进行精准预测. 因此,为了解决数据不共享情况下的联合建模问题,本文提出一种基于联邦学习的决策树算法FL-DTFederated Learning-Decision Tree. 首先,构造基于直方图的数据存储结构用于通信传输,通过减少通信次数,有效提升训练效率;其次,提出基于不经意传输的混淆布隆过滤器进行隐私集合求交,得到包含各参与方数据信息的联邦直方图,并建立联邦决策树模型. 最后,提出多方协作预测算法,提升了FL-DT的预测效率. 在四个常用的金融数据集上,评估了FL-DT算法的精确性和有效性. 实验结果表明,FL-DT算法的准确率比仅利用本地数据建立模型的准确率高,逼近于数据集中情况下模型的准确率,而且优于其他联邦学习方法. 另外,FL-DT的训练效率也优于已有算法.关键词联邦学习;决策树;混淆布隆过滤器;隐私安全;数据不共享中图法分类号TP181 DOI10. 11897/SP. J. 1016. 2021. 02090Federated Decision Tree Algorithm for Privacy SecurityGUO Yan-Qing1WANG Xin-Lei 1FU Hai-Yan1LIU Hang1YAO Ming21)(School of Information and Communication EngineeringDalian University of TechnologyDalianLiaoning 1160242)(Data Intelligence Department of InsightOne Tech CoLtdBeijing 100007Abstract In recent yearswith the vigorous development of technology and its related industriesInternet finance has increasingly highlighted its advantages. For a long timequalification reviewbased on the user information has been a fairly important business in the financial field. In mostcaseswhen an individual applies for a loan from a bankthe bank will evaluate him or her throughthe actual situation based on the established predictive model to determine whether to grant theloan. In this processa high-quality default risk assessment can avoid unnecessary losses for thebanks. Howeverthere are still many deficiencies in the current research on the assessment ofdefault risks of borrowers by banks and other lending institutions. On the one handit is difficult tobuild a high-quality prediction model due to the lack of user dataon the other handpeople arepaying more and more attention to the privacy protection of personal datait is also tough work forbanks to obtain a large amount of relative dataand because of thatthey cannot carry out theprediction models to accurately predict users’situation. In order to solve the problem of joint收稿日期:2020-12-01;在线发布日期:2021-05-24. 本课题得到国家自然科学基金(No. 62076052No. U1736119)、中央高校基本科研业务费(No. DUT20TD110No. DUT20RC3088)资助. 郭艳卿,博士,教授,CCF 会员(NO. 18163M),主要研究领域为机器学习、网络空间安全. E-mailguoyq@dlut. edu. cn. 王鑫磊,硕士研究生,主要研究领域为机器学习,隐私计算. 付海燕,博士,高级工程师,CCF会员(NO. 18162M),主要研究领域为计算机视觉. 刘航,博士,副教授,主要研究领域为医学信号处理. 姚明,硕士,主要研究领域为大数据、多方安全计算、联邦学习.10 期郭艳卿等:面向隐私安全的联邦决策树算法modeling in the case of data is not sharedthis paper introduces the idea of thefederated learning toeffectively utilize the value of other participants’ data without the leaving of local data toestablish a shared predictive model. Because decision tree algorithms are widely used in financialrisk controlling and fraud identificationthis paper proposes a decision tree algorithm FL-DTFederated Learning-Decision Treebased on federated learning. Federated learning is theconcept put forward by Google in 2016which can complete joint modeling without data sharing.Specificallythe data of each owner will not leave the local placeand the global sharing modelwill be jointly established through the parameter exchange method under the encryptionmechanism in the federal systemin the case of not violating data privacy protection regulations.Moreovereach participant only serves for the local targets. Firstlya data storage structure basedon a histogram is presented for communication transmissionwhich can effectively improvetraining efficiency by reducing the number of communications. Secondlythe garbled Bloom filterbased on an oblivious transfer is proposed to perform the privacy set intersectionand then we canobtain the federated histogram containing the data information of each participantand establishesthe federated decision tree model. Finallyamulti-party collaboration prediction algorithm is putforward to improve the prediction efficiency of FL-DT. Based on four commonly used data sets inthe financial fieldthis article assesses the accuracy and effectiveness of the FL-DT algorithm.The experimental results show that the prediction accuracy of the FL-DT model is higher thanthat of the model established using only local datawhich is close to the model built in the case ofdata concentration. In additionthe prediction accuracy of the FL-DT methods is better than otherfederated learning methodsand the training efficiency and prediction efficiency are also betterthan other algorithms.Keywords federated learningdecision treegarbled bloom filterprivacy securitydata notsharing1 引言近年来,互联网金融发展迅速,大数据背景下对借款人进行准确的贷前风险评估是各大金融机构的关注重点,但是银行等放贷机构对借款人的违约风险评估[1-4]方面的研究仍存在很大不足. 一方面由于缺少用户数据很难构建高质量的预测模型;另一方面由于对个人数据的隐私保护,银行等很难获得大量的用户数据. 例如中国在2017 年提出的《中华人民共和国网络安全法》中,对数据的收集和处理提出了严格的约束和控制要求;美国加利福尼亚州也于2020 1 月正式生效了《加利福尼亚州消费者隐私法》(California Consumer Privacy ActCCPA)[5.个人向银行申请贷款时,银行根据建好的预测模型对贷款人进行评估判断是否给予贷款. 数据共享的情况下,银行根据自己的数据库构建预测模型,通过该模型对新用户进行预测. 然而由于数据孤岛的存在,单个银行往往没有如此详细的用户属性信息. 如图1 所示,银行只有用户的某些信息(例如:账单和房产信息),而其它金融公司持有这个用户的其他信息(例如:年龄和收入). 银行想利用金融公司的用户数据扩展自己的数据库,而金融公司也可以根据自己的贡献从模型中收益. 由于要遵守数据安全法规或者保持专有数据的竞争优势,双方都不想共享自己的数据给对方.针对上述多方联合建模问题,文献[6]假设在训练过程中所有参与方可以以明文形式共享标签信息,但是现实情况下,标签只存在于某一个参与方中,并且由于隐私问题等不能透漏给其他参与方. 文献[7-8]中提出了一种在垂直分布的数据上隐私保图1 联邦场景下的联合建模2091计算机学报2021 年护的决策树算法. 但是此方法存在两个问题:一是该算法只能处理属性值是离散的数据集,这对于现实情况不太实用;二是他们提出的方法必须揭示属性特征的类别分布,这将导致潜在的数据泄露风险. 苹果公司提出使用差分隐私[9]来解决保护隐私问题.差分隐私的基本思想是当第三方交换和分析数据时,通过向数据中添加经过适当校准的噪声来消除可能暴露用户身份的信息. 但是,差分隐私仅在一定程度上防止用户数据泄露,而不能完全消除个人信息. 此外,差分隐私仍要求不同组织之间进行数据交换,这也存在隐私泄露的风险.仅仅依靠传统方法难以解决数据不共享情况下违约风险评估的联合建模问题,本文引入联邦学习思想,在数据不离开本地的情况下有效利用其它参与方的数据价值,建立共享的预测模型. 由于决策树算法被广泛地应用在金融风控和诈骗识别等领域,因此本文提出一种基于联邦学习的决策树算法FLDT,整体流程框架如图2 所示.论文的主要贡献如下:1)提出一种基于联邦学习框架的决策树算法FL-DT,解决数据不共享情况下的违约风险评估联合建模问题;2)提出一种基于直方图的数据存储结构进行通信传输,通过减少通信次数,有效提升训练时间. 并且以此直方图结构建立联邦决策树模型;3)采用秘密共享和基于不经意传输的混淆布隆过滤器两种多方安全计算技术加密训练联邦树模型,保证各参与方的信息安全.本文章节安排如下:第2节介绍相关工作;第3节对如何建立联邦决策树模型进行详细介绍;第4 节在四个常用金融数据集上进行实验,验证本文方法的有效性;第5 节为结论及未来工作展望.2 相关工作2. 1 联邦学习联邦学习是由谷歌[10-12]在2016 年提出的概念,该技术在数据不共享的情况下完成联合建模. 具体来讲,各个数据拥有者的自有数据不会离开本地,通过联邦系统中加密机制下的参数交换方式(不违反数据隐私保护法规的情况下)联合建立全局共享模型,建好的模型在各参与方只为本地的目标服务[13.联邦学习框架包括两个模块:首先是数据对齐[14-16],然后利用联邦协同的机器学习算法[17-20]进行训练. 根据数据拥有者所持有数据的分布特点,联邦学习可分为横向联邦学习[21]、纵向联邦学习[22]和联邦迁移学习[23.1)横向联邦学习:当两个参与方的用户特征重叠较多而用户重叠较少时,取出双方用户特征相同而用户不完全相同的那部分数据进行训练;(2)纵向联邦学习:当两个参与方的用户重叠较多而用户特征重叠较少的情况下,取出双方用户相同而用户特征不完全相同的数据进行训练;(3)联邦迁移学习:当两个参与方的用户和用户特征都重图2 基于联邦学习的决策树方法整体框架209210 期郭艳卿等:面向隐私安全的联邦决策树算法叠较少时,不对数据进行划分,而是利用迁移学习来克服数据或标签不足的情况.已有研究提出了一些基于联邦学习的分类方法. Pivot-DT19]是一种联邦决策树分类算法,采用多方安全计算(MPC)和门限同态加密(TPHE)两种加密技术的混合联邦学习框架. 文献[24]中提出的方法因为采用复杂的加密方法加密多个参与方的数据,导致训练过程非常耗时,并且带来了过高的计算开销. 文献[25]通过引进第三方平台进行密钥发放,但是并不能确定第三方是完全可靠的. RDTs26]和SecureBoost17]中假设训练过程中的一些中间结果可以以明文形式发送,但是对于存在恶意攻击目的的参与方可以利用中间结果反推出其它参与方敏感信息,导致隐私数据泄露. Djatmiko 等人通过泰勒展开近似非线性逻辑损失,对加密后垂直划分的数据建立逻辑回归,除此之外,开源联邦学习框架FATE27]也实现了联邦逻辑回归算法FL-LRFederated Learning Logistic Regression),但是这种方式将导致精度损失严重.通过以上分析,现有的联邦分类方法大都基于逻辑回归,Xgboost 等经典机器学习算法,并结合不同的加密技术保证联邦学习的安全性. 本文主要研究各参与方通过联邦协同的方式建立精准违约风险评估模型,其应用场景是纵向联邦学习,是在数据对齐的基础上,提出满足隐私保护和提升通信效率的联邦决策树算法. 与其他联邦学习相比,本文所选用机器学习算法不同和所使用的加密技术不同.2. 2 隐私集合交集隐私集合交集(Private set intersectionPSI)[28-30]是指两方P1 P2 各自拥有数据X Y,在不暴露交集以外数据的情况下求得两方交集X ∩ Y. 隐私求交计算是安全多方计算领域的一个重要方面,有着很广泛的应用场景. 例如隐私保护相似文档检测、安全的人类基因检测、隐私保护的社交网络关系发现等. 在数据由不同管理者持有的条件下,PSI 计算让用户既可以享受大数据时代的各种网络服务,也可以保护隐私数据的安全[31.Freedman 等人[32]首先提出了隐私求交算法的概念和第一个基于不经意多项式估值协议的PSI,随后又有研究人员提出了基于电路的PSI33-34]和基于公钥加密的PSI35-36. 目前速度最快最流行的是基于不经意传输的PSI.3 基于联邦学习的决策树算法3. 1 问题描述假设m 个数据拥有方( p1p2pm ) 想要基于n 个样本{ Xiyi } ni= 1 共同训练模型,所有属性特征Xi ∈ R1× d 分布在m 个独立的参与方之间{ X k ∈ Rn × dk } mk= 1. 每个参与方拥有相同的用户集合,并且已经对齐,即每个用户在各个参与方具有相同的索引id. 但是不同参与方持有同一个用户的不同属性信息. 任意两个参与方之间拥有的属性信息都不相同. 不失一般性,在构建机器学习模型时,约定只有一方提供类别标签,标签属性为y ∈ Rn × 1,由pm方持有. 1 总结了本文所使用符号及其含义.约定1. 主动方由于标签属性对于监督学习必不可少,因此必须有一个主动方可以访问标签属性. 将同时拥有属性特征和类别标签的参与方称为主动方. 在联邦学习中,主动方担任主导服务器训练的责任.约定2. 协作方将仅具有属性特征的参与方称为协作方,协作方在联邦学习中扮演客户的角色,比如其他金融机构. 协作方也需要通过模型来预测用户类别,因此,他们必须与主动方合作建立共同的模型,用来对未来的用户进行预测.对于分布在( p1p2pm ) m - 1 个彼此独立的协作方数据{ X k } m - 1k = 1 和分布在pm 上的带有标签的主动方数据{ X my },本文通过联邦学习建立联邦决策树模型. 联邦学习框架要求满足模型无损[37-38]:|Pr ( DT|FL )- Pr ( DT )|≤ ε 1)其中Pr ( DT|FL )为联邦决策树模型的精度,Pr ( DT )为数据集中情况下决策树模型的精度,ε 为任意正表1 本文所使用符号及其代表含义符号mn{ pi } mi= 1X iX ijdi,dyH ib代表含义参与方的数量样本总数各个参与方参与方pi 拥有的数据参与方pi 的第j 个特征pi 的特征数量,总特征数量类别标签参与方pi 建立的直方图直方图分桶数2093计算机学报2021 年数. 在多方协作建立联邦决策树的过程中,为解决通信效率和隐私保护的问题,本文提出基于直方图形式的数据存储方式解决大规模稀疏属性特征的有效结构化问题,提出基于不经意传输的混淆布隆过滤器解决数据不共享情况下的隐私集合求交问题.3. 2 基于直方图的数据存储结构联邦学习要求各方数据必须保存在本地,通过交互模型参数进行模型聚合,当通信次数非常频繁或者传输参数过多时就会增加传输成本,降低训练速度,因此,解决通信成本问题是非常重要的优化环节[39-40. LightGBM41]启发,本文提出联邦框架下的直方图算法,将各参与方数据转换成直方图形式的数据结构,并以此建立决策树.主动方pm 由于拥有数据和标签{ X my } 可以直接建立联邦直方图. 例如将pm 方的属性A 划分到t 个桶内,假设标签属性y 具有c 个类别{ Ck ∈ R|ck|× 1 } ck = 1,其中Ck 为第k 类标签的索引集合,|ck| 为第k 类标签的数量,则建立的直方图为H mA ={ |Al|∈ R1× c } tl = 1 2)其中|Al| 为第l 个桶内所包含c 个类别的数量,即联邦直方图内存储的是属性A 的所有桶,桶内包含各个标签类别的数量.对于其他协作方{ X i } m - 1i = 1,由于没有标签信息,先建立本地直方图. 例如将X i 参与方的属性B 划分到T 个桶内,则建立的本地直方图为H iB={ Bl ∈ R1× c } Tl= 1 3Bl表示第l个桶内所包含c个类别的索引集合. 即协作方直方图桶内存储的是该桶内样本的索引集合,这些索引值再通过隐私求交算法得到类别标签的数量.直方图结构除了用于存储数据,还有减少通信次数和节省内存消耗的优势.减少通信次数在进行隐私求交过程中,如果不使用直方图数据存储结构,需要将协作方的每个样本索引逐一进行隐私求交,确定其所属的类别,此时通信的次数为样本数n. 使用直方图存储结构可以将通信的次数由样本数n 降低为直方图的桶数b,由于#b≪ #n,所以直方图算法极大地降低了通信的次数.节省内存消耗在建立决策树过程中,最耗时的步骤就是寻找最佳分裂点,目前最流行的是预排序算法[42. 预排序算法需要32 位浮点数(4Bytes)保存每个特征值,并且对每一列特征,都需要一个额外排好序的索引列,所以预排序消耗的总内存为:2×#n × #d × #4Bytes. 而直方图算法不需要存储原始的特征值,也不需要排序,仅需要存储离散后的特征分桶值,而分桶值只要8 位整型(1Bytes)存储即可,直方图算法消耗的总内存为:#n × #d × #1Bytes.所以直方图算法消耗的内存仅为原始的1/8.3. 3 基于不经意传输的混淆布隆过滤器3. 3. 1 秘密共享秘密共享(Secret Sharing)[43-44]是基本的密码原语. 秘密拥有者将秘密s 分成n 个子份额,使用t 个或者更多份额的任何子集即可有效地恢复秘密. 对于少于t 个份额的任何子集,该秘密是不可恢复的,并且每个子份额不提供有关该秘密的任何信息. 这种系统称为( tn )-秘密共享.t = n 时,通过简单的XOR(异或)运算就可以得到一种有效且广泛使用的秘密共享方案[45. 该方案进行秘密共享时:首先生成和秘密s 相同长度的n - 1 个随机比特串( r1r2rn - 1 ), 由( r1r2rn - 1 )s 计算得到rn = r1⊕r2⊕⋯⊕rn - 1⊕s 4)每个ri 都是秘密的一部分. 秘密s 通过计算r1⊕r2⊕⋯⊕rn - 1⊕rn 恢复,且任何少于n 个份额的子集不会显示秘密的信息.3. 3. 2 混淆布隆过滤器混淆布隆过滤器的作用包含两方面,一是把协作方直方图中每个桶内存储的索引集合(集合中的每个索引值称为元素),编码映射到m 位的过滤器中;二是主动方对协作方进行查询,完成隐私求交,生成联邦直方图.对于一个( mnkHλ ) 参数化的混淆布隆过滤器GBFm 为混淆布隆过滤器的位数,n 为索引集合S 的元素个数,k 表示哈希函数的个数,H 为哈希函数集合,λ 表示混淆布隆过滤器每个位置的比特数. 初始时,混淆布隆过滤器内存放的都是随机数. 3 所示是混淆布隆过滤器对协作方直方图桶内元素的映射过程,图中k = 3,首先将直方图桶内任意元素x 根据上述的秘密共享方案拆分成k 个子份额{ ri } ki= 1,并利用k 个函数H ={ h1hk } 进行映射,得到其在混淆布隆过滤器中的k 个位置hk ( x )= mod ( Fk ( x )m ) 5)其中Fk ( ⋅ ) 可以是任何哈希加密算法,如HD546],SHA25647]等. 然后再将秘密共享子份额插入混淆布隆过滤器对应的索引位上GBF [hi (x)] = ri 1≤ i ≤ k 6209410 期郭艳卿等:面向隐私安全的联邦决策树算法当主动方查询元素y 是否在集合s 中,首先对y 进行与x 相同的哈希操作{ hi ( y ) } ki= 1,得到y 在混淆布隆过滤器中的k 个位置. 然后将k 个位置上的ri 取出来进行XOR 运算,如果运算结果等于y 值,则y 在集合S中,否则不在集合S中,这一过程即为隐私求交.联邦学习框架下,由主动方Pm 主导,其他协作方( p1p2pm - 1 )协同完成模型训练. 各个参与方在本地利用自己的数据建立直方图,主动方直接建立联邦直方图{ H mi ∈ Rt × c } dmi = 1,而协作方建立桶内存储索引的直方图{ { H ji ∈ Rt × c } dji = 1 } m - 1j = 1 . 主动方接受到各方建立的直方图后,与本地的标签属性{ Ck ∈ R|ck|× 1 } ck = 1 进行隐私求交,得到协作方每个桶对应主动方标签类别的数量,建立协作方的联邦直方图,最后整合所有直方图为{ { H ji ∈ Rt × c } dji = 1 } mj= 1.从查询算法可知,如果协作方将生成的GBF 直接发送给主动方,主动方可以通过暴力求解的方式求得GBF 内存储的元素,所以存在数据泄露的风险. 为了防止隐私泄露,本文采用基于不经意传输的通信协议获得两方交集.不经意传输(Oblivious transferOT)[48]协议是一种基于公钥密码体制的密码学协议,是安全多方计算的一种基础协议. 基础的N 1 不经意传输协议可以描述为:两个参与方,其中发送方持有n 条数据s1sn,而接受方持有选择向量τ,经过不经意传输,接受方能够获得,但是无法获得除以外的信息,发送方未输出其他信息且无法获得接受方的选择向量τ.本文采用m 2 1 的不经意传输解决上述可能暴露信息的问题. 如图4 所示,其中GBF 为协作方生成的混淆布隆过滤器,τ 为主动方的选择向量,RB 为随机比特串. 协议过程如下:主动方利用H ( y )得到要查询的元素y 在混淆布隆过滤器中的k个位置,将其设置为1,其余位置设置为0,即得到选择向量τ. 运行不经意传输:GBF'[ i ]= {GBF [ i ]RB [ i ]τ [ i ]= 1τ [ i ]= 07)从而主动方获得一个仅包含两方交集的混淆布隆过滤器GBF' 而协作方没有得到任何信息.除了安全性,正确性也是显而易见的. 如果y ∉ S,则经过相同的哈希函数,从GBF 中取出k λ比特进行异或运算的结果却等于y的概率为2-λ λ通常设置为32),是可以忽略不计的. y ∈ S 时,因为哈希函数是相同的,则在查询阶段每个GBF [ hi ( y ) ] 必定为y 的秘密共享子份额,所以一定可以恢复y. 但是存在一种情况,由于GBF 中存储的不是秘密共享子份额就是随机数,将GBF 的特定位置存储为秘密共享子份额的概率为p'= 1-(1- 1m)kn 8)当集合S 内某个元素哈希后的索引位全被其他元素的秘密共享子份额占据后,查询时就会出现本来在集合内,但是查询结果却不在集合内,这种假阴性的概率为p = p'k×(1+ O (kp'ln m - kln p'm ) ) 93. 4 联邦决策树的构造各参与方通过隐私求交得到联邦直方图,以此图4 m 位二选一不经意传输协议图3 混淆布隆过滤器对元素的映射过程2095计算机学报2021 年直方图结构建立联邦决策树模型FL-DT. 决策树算法是一种对高维数据进行有效分类的数据挖掘方法. 通过对输入的特征信息进行分析训练,构造决策树模型作为分类规则. 传统的CART 树[49]是一种应用广泛的决策树学习算法,主要通过计算基尼指数来选择最优特征,得到二叉树判断准则进行分类. 本文以CART 树为基础,采用基尼指数选择最优特征建立联邦树模型.在分类问题中,假设有K 个类,样本点属于第k类的概率为pk,则概率分布的基尼指数定义为Gini( p )= Σk = 1K pk (1- pk )= 1- Σk = 1K p2k10)对于二分类问题,若样本点属于第一类的概率为p,则概率分布的基尼指数为Gini( p )= 2p(1− p ) 11)对于给定的直方图集合H,其基尼指数为Gini( p )= 1- Σk = 1K (|Ck||H| )212)其中|Ck| 表示H 中属于第k 个类别的数量,K 为类别的数量,|H| 表示直方图内总样本数量. 根据直方图集合H计算出基尼指数最小的最优特征Hi 最佳分裂桶为binsj. 此时直方图集合H 根据最优特征Hi 是否取值最佳分裂桶binsj 被分割为Hl Hr 两个子集,重新建立左边子集直方图Hl ={ { Hi ( binsj ) } tj= 1 } di= 1 }∈ H|Hi ( bins )binsj } 13)右边子集直方图Hr 可以根据直方图加速算法得到Hr = H - Hl 14)那么在最优特征直方图Hi 的条件下,直方图集合H分裂后的基尼指数为Gini( HHi )= |Hl||H| Gini( Hl )+ |Hr||H| Gini( Hr ) 15)其中Gini( H )表示集合的不确定性,Gini( HHi )表示经Hi ( bins )= binsj 分割后集合的不确定性,基尼指数越大,样本的不确定性越大,即越不适合作为最优分裂特征. 我们规定只有当分裂前的基尼指数Gini( H ) 与分裂后的基尼指数Gini( HHi ) 大于给定的阈值时,才继续分裂,否则判断当前节点为叶子节点,即Gini( H )- Gini( HHi )> ε 16ε 为最小分裂阈值. 重复上述步骤,直到建立联邦决策树模型完成,整体算法流程如算法1 所示.算法1. FL-DT 算法.输入:分布在p1pm 各参与方的数据X 1X mprune conditions 剪枝条件输出:FL-DT{联邦决策树模型}1. Histi = BuildHistogram ( )//各方参与建立本地直方图2. FOR each Hist1Histm - 1 DO3. FLHisti = PSI ( Histi )//使用混淆布隆过滤器隐私求交,建立联邦直方图4. END FOR5. FLHist = |FLHist1 ∩ ⋯∩ FLHistm|//整合所有联邦直方图6. IF prune condition satisfied THEN7. return leaf node with majority class//满足剪枝条件,则返回叶子结点8. ELSE9. BestAttBestBins = FindBestSplit ( FLHist )//找到最优特征和最佳分桶值10. IF Gini( before )- Gini( after )> ε THEN11. Create Interior Node pi.A= BestAtt//创建中间节点12. IF BestAtt at party pi THEN13. At piSplit X into 2 partitions Xl Xr14. FLHist_left = BuildHistogram ( Xl )15. FLHist_right = FLHist - FLHist_left//直方图加速算法16. END IF17. FL-DTFLHist_left//递归18. FL-DTFLHist_right//递归19. END IF20. END IF3. 5 多方协作预测算法在模型预测过程中,各参与方共享同一个联邦树模型. 当前树节点的最优特征属于哪个参与方,就需要到哪个参与方执行树模型,所以各参与方之间需要频繁交互. 如果预测样本量过多,时间成本急剧上升,实际应用中根本无法投入使用. 在联邦学习框架中,通信所消耗的时间成本比计算消耗的时间成本大的多,因此本文提出多方协作预测算法,通过增加本地计算量,减少通信次数,从而提升预测效率.如图5 所示,左图为建立好的联邦树模型,右图为预测单个样本的流程. 从根节点所在方Party 1 开始,对所有测试集样本逐一预测,如果当前节点还属于Party 1,则继续下一节点,直到当前节点不属于Party 1 为止;如果当前节点属于其他参与方,则记录当前节点的Tree ID Party ID,然后继续预测下一个样本. 在当前参与方遍历完所有样本后,Party209610 期郭艳卿等:面向隐私安全的联邦决策树算法1 根据Party ID 分别将预测样本转到对应的参与方继续预测,其他参与方直接从Tree ID 节点继续预测即可. 重复此步骤,直到所有样本都得到预测结果. 利用这种方法可以将预测的时间复杂度从O ( #n )× O ( #h ) 降低到O ( #h ),在大规模样本量预测上有很大优势.4 实验及结果分析4. 1 数据集及评价指标4. 1. 1 数据集介绍本节通过四个常用的金融领域数据集对基于联邦学习的决策树模型进行性能评估:Creditcard:是关于客户信用分数的数据集,与预测用户是否按时还款的分类任务相关. 包含30 000 个用户样本、23 个属性信息和1 个标签信息.Bankmarket:与银行机构的电话营销活动有关,目的是预测客户是否会订阅定期存款. 包含4521 个用户样本,16 个属性信息和1 个标签信息.GMSC:是银行用来评估客户是否会遭受严重财务问题的分类数据集. 包含150 000 个用户样本、10 个属性和1 个标签信息. 由于原始数据存在数据缺失,特征值异常等问题,所以我们对此数据集进行了特征工程处理,处理后包含149 165 个用户样本、10 个属性信息和1 个标签信息.CarEvaluation:该数据集是对汽车进行评估的分类数据集,包含1728 个用户样本,6 个属性信息和1 个标签信息.实验过程中,将整体数据集的70% 用于训练,其余30% 用于测试. 并将数据集按照θ 的比例将特征拆分成两部分,分别分配给参与方Party A PartyB,其中Party A 为主动方. 本文所有实验都是在两台华为云服务器上进行,配置如下:系统为Centos7. 6. 1810CPU IntelRGold 6278C2. 6 GHz80 GB内存;GPUCirrus Logic GD 5446.4. 1. 2 对比方法本文采用以下对比方法验证FL-DT 的性能:(1PartA-DTPartB-DT:每个参与方仅通过本地数据训练模型,其中PartA-DTPartB-DT 分别为Part A 参与方的本地数据和Part B 参与方的本地数据训练的决策树模型,此时获得的决策树模型是非联邦协同情况下的模型,目的是验证联邦框架的有效性;(2NoFL-DT:所有参与方数据集中情况下训练决策树模型,目的是验证联邦后的模型精度无损;(3)其他联邦学习方法:将Pivot-DT19]、FLLR27]、SecureBoost17]作为其他联邦学习对比方法,用于评估FL-DT 模型的精确性.4. 1. 3 评价指标本文主要从精确性和有效性两个方面评价联邦树模型FL-DT:精确性:采用模型在测试集上预测正确数量所占总数的百分比作为评价指标. 为了公平比较,图5 模型预测2097计算机学报2021 SecureBoost 仅采用一棵树,所有对比方法都采用相同的实验参数,如树的最大深度,剪枝条件等.有效性:采用训练模型所需时间和模型预测单个样本所需时间作为指标,用于评估FL-DT 的有效性.4. 2 模型的精确性实验为了验证模型的精确性,我们将提出的联邦决策树FL-DT,部分决策树Part-DT 和数据共享决策树NoFL-DT 在上述四个数据集上与Pivot-DTFL-LR SecureBoost 进行比较,实验结果如表2 所示. 主要参数设置如下:特征分割比例θ = 70%,最大树深为5,桶数为256,最小信息增益为1 e-3,混淆布隆过滤器的比特数λ 设置为32. 我们对每个实验分别进行10 次独立重复实验,并取平均结果.从表2 中分析可以得到以下结论:(1FL-DT 的精确度总是比PartA-DT PartB-DT 的精确度高,而且拥有总数据集70% 的主动方PartA-DT PartB-DT 精度也高,验证了数据特征维度越多,模型训练的效果越好,即数据不共享情况的联邦框架是有效的;(2)联邦决策树FL-DT 的精确度非常接近数据集中决策树NoFL-DT,验证了联邦后的模型精度是无损的;(3)与三种其他联邦学习对比方法相比,FL-DT 在四个数据集上的精度都得到了提升,验证了本文提出的基于直方图和混淆布隆过滤器的联邦决策树模型优于其他联邦学习方法. 本实验在GMSC 上效果不明显的原因主要有两点:一是GMSC 特征维度太少,而样本量却较大. 二是标签类别数量分布极度不均衡,两类标签数量比为91.为了进一步探索分桶数b,最大树深h 和数据分割比例θ 对模型精确度的影响,我们在Creditcard 数据集上进行以下消融实验,实验结果如图6所示.6a)体现了分桶数对模型精度的影响,随着桶数的增加,模型精度也在不断上升并趋于数据集中情况下的最优精度. 原因在于,桶数较少时,量化误差较大,正则化效果较强. 当桶数增加到一定程度,量化间隔趋于特征值数量,每个桶内的样本数量更少,划分更精确,所以精度也达到最优. 但是桶数太大也会增加训练的时间成本.6b)是最大树深对模型精度的影响,随着树深的增加,模型对数据拟合效果越好,但是随着树深h 的继续增加,就会出现过拟合,导致在测试集上测试精度下降.6c)表明了不同的数据分割比例对模型精度的影响. θ 代表的是主动方所持有的特征比例,随着θ 的提升,精度变化不大. 主要原因是无论主动方的数据还是协作方的数据都建立直方图形式的数据存储结构,并且以直方图结构建立联邦树模型,所以只要特征总数一定,无论属予哪个参与方,建立的直方图结构都一样,最终模型也一样.6d-f)所示为选取最大树深为5,最佳分桶数为256,分割比例θ = 70% 等参数,FL-DTFLLRSecureBoost 分别在三个数据集上得到的ROC 曲线图. 实验结果标明,FL-DT 在三个数据集上的预测精度均高于其他联邦学习方法.4. 3 模型的有效性实验联邦决策树模型的有效性主要受三个因素影响:(1)属性分桶的数量b;(2)决策树的深度h;(3)数据集的样本量n. 在本小节中,我们分别研究以上三个变量对训练时间的影响.7a)表明了分桶数b 对训练时间的影响,从三个数据集整体来看,随着桶数的增加训练时间也相应的增加. 主要有两个原因:(1)对于相同的样本量,分桶数越多,通信的次数也随之增加;(2)分桶数越多,在计算基尼指数时,需要遍历的样本量也就越多,计算成本也就越高. 从图中还可以得到,对于相同的桶数,GMSC 建模所需时间总是比Credit card 时间长,并且随着桶数的增加,差距也在逐渐增大.7b)体现了树的最大深度h 对训练时间的影响,随着最大树深的增加,中间节点的数量也逐渐增多,训练消耗时间也自然增大. 其中在相同的表2 模型精度对比数据集Credit cardBank marketGMSCCar EvaluationNoFL-DT82. 744489. 082493. 463579. 9228PartA-DT82. 5088. 716893. 405472. 5868PartB-DT79. 855687. 168193. 193166. 0231Pivot-DT82. 152688. 6077——FL-LR78. 777887. 536893. 378567. 9536SecureBoost82. 733388. 569393. 430179. 1505FL-DT82. 735689. 011893. 432179. 1627209810 期郭艳卿等:面向隐私安全的联邦决策树算法树深下,GMSC 训练时间总是比Credit card 20 min 左右.7c)为样本数量n 与训练时间的关系,训练样本越多,训练所需时间也就越长. 其中Bankmarket 只有4521 个样本量. 由于Credit card Bankmarket 分别比GMSC 多了13 个和7 特征信息,所以在相同的样本量下,GMSC 所消耗时间最少.7d)为最大树深h 对模型预测效率的影响.Credit card 上,随着树深的增加,预测单个样本的时间上升趋势明显. 原因在于随着树深的增加,树模型的中间节点的数量也在增多,所以预测时间也随之增加. 而对于GMSC 来说,树深最大的情况下单个样本预测时间也小于1ms,可能的原因主要有两个:(1GMSC 本身特征属性较少,虽然样本量很大,但是分桶数是固定的,随着树深的增加,树模型中间节点的数量并没有增加很多;(2)本文采用增$FFXUDF\E)/ '71R)/ '7a) 模型精度vs. b$FFXUDF\?)/ '71R)/ '7c) 模型精度vs. θ6HFXUH%RRVW DUHD73 UDWH)3 UDWH)/ /5 DUHD)/ '7 DUHDeBank market ROC 曲线$FFXUDF\K)/ '71R)/ '7b) 模型精度vs. h6HFXUH%RRVW DUHD73 UDWH)3 UDWH)/ /5 DUHD)/ '7 DUHDdCredit card ROC 曲线6HFXUH%RRVW DUHD73 UDWH)3 UDWH)/ /5 DUHD)/ '7 DUHDfGMSC ROC 曲线图6 ab 对测试集精度的影响;(bh 对测试集精度的影响;(cθ 对测试集精度的影响(dCredit card ROC 曲线;(eBankmarket ROC 曲线;(fGMSC ROC 曲线2099计算机学报2021 年加本地计算量,减少通信次数的预测方法,这种方法更适合预测大规模样本量的情况.5 结论与展望本文提出一种基于联邦学习框架的决策树算法FL-DT 解决数据不共享情况下的联合建模问题.FL-DT 采用基于直方图形式的数据存储结构进行通信传输,通过减少通信次数,有效地提升训练效率. 并且以此直方图结构建立联邦决策树模型. 还提出基于不经意传输的混淆布隆过滤器进行隐私集合求交,不依赖任何可信的第三方,保证各参与方的信息安全. FL-DT 适用于半诚实模型,中间结果处于加密状态,能够保护参与方的信息不被其他存在恶意的参与方攻击. 本文在两个数据集上对FL-DT模型的精确性和有效性进行了评估. 实验结果表明,FL-DT 模型比各方单独训练的模型精度都高,证明联邦学习的方法是有效的,并且与数据共享情况下训练的模型相比几乎是没有损失的. 除此之外,FL-DT 的训练效率和预测效率也优于其他算法.本文提出的基于联邦学习的决策树算法还有不足之处. 由于一棵决策树的分类效果有限,所以在未来的工作中,考虑引入集成学习的思想,在建立的单棵树基础上实现随机森林(RF)、梯度提升树(GBDT)等方法.致谢感谢国家自然科学基金(No. 62076052,No. U1736119)、中央高校基本科研业务费(No.DUT20TD110,No. DUT20RC(3)088)的资助.参考文献[1Cheng Da-WeiNiu Zhi-BinZhang Li-Qing. Research on therisk of large-scale unbalanced secured online loans. ChineseJournal of Computers20204304):668-682in Chinese)(程大伟,牛志彬,张丽清. 大规模不均衡担保网络贷款的风险研究. 计算机学报,20204304):668-682)[2Xie Chen-Xin. Study on adaptability of borrower credit risk&UHGLW FDUG%DQN PDUNHW*06&7UDLQLQJ WLPH PLQEa) 训练时间vs. b&UHGLW FDUG%DQN PDUNHW*06&7UDLQLQJ WLPH PLQQc) 训练时间vs. nK&UHGLW FDUG%DQN PDUNHW*06&7UDLQLQJ WLPH PLQb) 训练时间vs. h&UHGLW FDUG%DQN PDUNHW*06&3UHGLFWLQJ WLPH PVKd) 预测单个样本时间vs. h7 b,h, n FL-DT 效率的影响:(ab 对训练时间的影响;(bh 对训练时间的影响;(cn 对训练时间的影响;(dh 对预测时间的影响210010 期郭艳卿等:面向隐私安全的联邦决策树算法assessment model of P2P online lending platform. WuhanFinance20193):23-29in Chinese)(谢陈昕. P2P 网贷平台借款人信用风险评估模型适应性研究. 武汉金融,20193):23-29)[3Srinivasan VYong H K. Credit GrantingA ComparativeAnalysis of Classification Procedures. Journal of Finance2012423)[4Nalić JMartinovic G. Building a Credit Scoring Model Basedon Data Mining Approaches. 20203002):235California consumer privacy act. bill no. 375 privacypersonalinformationbusinesses. https//leginfo. legislature. ca.gov. 201806-286Hu YNiu DYang Jand Zhou S. FDMLA collaborativemachine learning framework for distributed features.Proceedings of the ACM SIGKDD International Conference onKnowledge Discovery & Data Mining. New YorkUSA20192232-22407Vaidya Jand Clifton C. Privacy-preserving decision trees oververtically partitioned data. Proceedings of the Data andApplications Security and Privacy. BerlinGermany2005139-1528Vaidya JCliftonCKantarcioglu Mand Patterson A S.Privacy-preserving decisiontrees over vertically partitioneddata. Proceedings of the ACM Transactions on KnowledgeDiscovery from Data. New YorkUSA200823):149Dwork CRoth Aet al. The algorithmic foundations ofdifferential privacy. Foundations and Trends R in TheoreticalComputer Science. 201493-4):211-40710Mcmahan H BMoore ERamage Det al. Federated learningof deep networks using model averaging. arXiv preprint arXiv1602. 05629201611Jakub KH. Brendan MDaniel Ret al. Federatedoptimizationdistributed machine learning for on-deviceintelligence. arXiv preprint arXiv1610. 02527201612Jakub KH Brendan Met al. Federated learningstrategies forimproving communication efficiency. arXiv preprint arXiv1610. 05492201613Mcmahan H BMoore ERamage Det al. Communicationefficientlearning of deep networks from decentralized data.Proceedings of the Conference on Artificial Intelligence andStatistics. Fort LauderdaleUSA20171273-128214PinkasBenny and Schneideret al. Scalable Private SetIntersection Based on OT Extension. ACM Transactions onPrivacy and Security. 20181243-125515Freedman M JNissim Kand Pinkas B. Efficient privatematching and set intersection. Proceedings of the InternationalConference on the Theory and Applications of CryptographicTechniques. BerlinGermany20041-1916Pinkas BSchneider TZohner M. Faster private setintersection based on OT extension. Proceedings of the 23rdUSENIX Security Symposium. BerkeleyUSA2014797-81217Cheng KFan TJin YLiu YChen Tand Yang Q.SecureboostA lossless federated learning framework. arXivpreprint arXiv1901. 08755201918Hardy SHenecka WIvey-Law Het al. Private federatedlearning on vertically partitioned data via entity resolution andadditively homomorphic encryption. arXiv preprint arXiv1711. 10677201719Wu YCai SXiao Xet al. Privacy preserving verticalfederated learning for tree-based models. arXiv preprint arXiv2008. 06170. 202020Hartmann VModi KPujol Jet al. Privacy-preservingclassification with secret vector machines. arXiv preprint arXiv2019. 1907. 0337321Gao DJu CWei Xet al. HHHFLhierarchical heterogeneoushorizontal federated learning for electroencephalography. arXivpreprint arXiv1909. 05784201922Liu YKang YZhang Xet al. A communication efficientvertical federated learning framework. arXiv preprint arXiv1912. 11187201923Shreya SXing CYang Let al. Secure and efficient federatedtransfer learning. arXiv preprint arXiv1910. 13271201924Liu YMa ZLiu XMa SNepal S and Deng R. BoostingprivatelyPrivacy-preserving federated extreme boosting formobile crowdsensing. arXiv preprint arXiv1907. 10218201925Ohrimenko OSchuster FFournet CMehta ANowozin SVaswani K and Costa M. Oblivious multi-party machinelearning on trusted processors. Proceedings of the USENIXSecurity Symposium. AustinUSA2016619-63626Vaidya JShafiq BFan WMehmood Dand Lorenzi D. Arandom decision tree framework for privacy-preserving datamining. IEEE Transactions on Dependable and SecureComputing2014115):399-41127https//github. com/FederatedAI/FATE28Zhou Shui-GengLi FengTao Yu-FeiXiao Xiao-Kui. Areview of research on privacy protection for databaseapplications. Chinese Journal of Computers20093205):847-861in Chinese)(周水庚,李丰,陶宇飞,肖小奎. 面向数据库应用的隐私保护研究综述. 计算机学报,20093205):847-861)[29Gong Lin-MingWang Dao-Shunet al. PSI calculation basedon no matching errors. Chinese Journal of Computers20204309):1769-1790in Chinese)(巩林明,王道顺等. 基于无匹配差错的PSI 计算. 计算机学报,20204309):1769-1790)[30PinkasBenny and Schneideret al. Scalable Private SetIntersection Based on OT Extension. ACM Transactions onPrivacy and Security. 2018212),1243-125531Zhou Su-FangLi Shun-Donget al. Efficient calculation of theintersection of confidential sets. Chinese Journal of Computers20184102):464-480in Chinese)(周素芳,李顺东等. 保密集合相交问题的高效计算. 计算机学报,20184102):464-480)[32Freedman M JNissim Kand Pinkas B. Efficient privatematching and set intersection. Proceedings of the InternationalConference on the Theory and Applications of CryptographicTechniques. BerlinGermany20041-1933Huang YEvans DKatz J. Private set intersectionAre2101计算机学报2021 garbled circuits better than custom protocolsProceedings ofthe Network and Distributed System Security Symposium.RestonUSA20121-1534Dong CChen LWen Z. When private set intersection meetsbig dataAn efficient and scalable protocol. Proceedings of theACM SIGSAC Conference on Computer &CommunicationsSecurity. New YorkUSA2013789-80035Dana DTal MMariana Ret al. Efficient robust private setintersection. Proceedings of the International Conference onApplied Cryptography and Network Security. BerlinGermany2009125-14236Hazay CNissim K. Efficient set operations in the presence ofmalicious adversaries. Proceedings of the InternationalConference Workshop on Public Key Cryptography. BerlinGermany2010312-33137Li TSahu A KTalwalkar Aet al. Federated learningchallengesmethodsand future directions. IEEE SignalProcessing Magazine2020373):50-6038Kairouz PMcmahan H BAvent Bet al. Advances and openproblems in federated learning. arXiv preprint arXiv1912. 04977. 201939Wang Jian-ZongKong Ling-WeiHuang Zhang-Chenget al.Summary of Federated Learning Algorithms. Big Data. 20201-22in Chinese)(王健宗,孔令炜,黄章成等人. 联邦学习算法综述. 大数据. 20201-22)[40Kairouz PMcmahan H BAvent Bet al. Advances and openproblems in federated learning. arXiv preprint arXiv1912. 04977. 201941Ke GMen Q and Finley Tet al. LightGBMA HighlyEfficient Gradient Boosting Decision Tree. Proceedings of theConference and Workshop on Neural Information ProcessingSystems. Long BeachUSA20173146-315442Li PBurges CWu Qet al. Learning to rank using multipleclassification and gradient boosting. Proceedings of theInternational Conference on Neural Information ProcessingSystems. VancouverCanada 2007845–852.43StadlerMarkus. Publicly Verifiable Secret Sharing.Proceedings of the International Conference on the Theory andApplications of Cryptographic Techniques. BerlinGermany1996190-19944AdiShamir. How to Share a Secret. Communications of theACM. 19792211):612-61345SchneierBruce. Applied cryptographyprotocolsalgorithmsand source code in C. New YorkUSA200746Ronald R and Dusses. The MD5 message-digest algorithm.MIT Laboratory for Computer Scienc. CambridgeUSA. 1992330-34447Donald Eastlake and Paul Jones. US secure hash algorithm 1SHA1. RFC 3174Milford USA. 20010-2248Naor M and Pinkas B. Efficient oblivious transfer protocols.Proceedings of the Twelfth Annual ACM-SIAM Symposiumon Discrete AlgorithmsPennsylvaniaUSA. 2001448-45749TimofeevRoman. Classification and regression treesCARTtheory and applications. Humboldt UniversityBerlinGermany. 20041-40GUO Yan-QingPh. D professor.His research interests include machine⁃learning and cyberspace security.WANG Xin-LeiM. S. candidate. His research interestsinclude machine learning and privacy computing.FU Hai-Yansenior engineer. Her research interestsinclude computer vision.LIU Hangassociate professor. His research interestsinclude medical signal processing.YAO MingM. S. His research interests include bigdatamulti-party secure computing and federated learning.BackgroundFederated learning FLis an emerging paradigm formachine learning that enables multiple data owners to jointlytrain a model without revealing their private data to each other.The basic idea of FL is to iteratively let each clientiperformsome local computations on her data to derive certainintermediate resultsand theniiexchange these results withother clients in a secure manner to advance the trainingprocessuntil a model is obtained.The challenges in federated learning at first glanceresemble classical problems in areas such as privacylargescalemachine learningand distributed optimization. Forinstancenumerous methods have been proposed to tackleexpensive communication in the machine learningoptimizationand signal processing communities. Howeverthese methods are typically unable to fully handle the scale offederated networksmuch less the challenges of systems andstatistical heterogeneity. Similarlywhile privacy is animportant aspect for many machine learning applicationsprivacy-preserving methods for federated learning can bechallenging to rigorously assert due to the statistical variation inthe dataand may be even more difficult to implement due to210210 期郭艳卿等:面向隐私安全的联邦决策树算法systems constraints on each device and across the potentiallymassive network.Existing work on FL has mainly focused on the horizontalsettingwhich assumes that each client's data have the sameschemabut no tuple is shared by multiple clients. In practicehoweverthere is often a need for vertical federated learningwhere all clients hold the same set of recordswhile each clientonly has a disjoint subset of features. in order to solve theproblem of joint modeling in the case of data not sharingthispaper proposes a decision tree algorithm FL-DT based onVertical federated learning. The method proposed in this paperimproves training efficiency and protects the informationsecurity of all participants.This paper is partially supported by National NaturalScience Foundation of ChinaNo. 62076052No. U1736119and Fundamental scientific research business expenses ofcentral universitiesNo. DUT20TD110No. DUT20RC30882103

[返回]
上一篇:基于互质阵列的运动单站信号直接定位方法
下一篇:面向端云协同架构的区块链技术综述