欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
SCI期刊论文
当前位置:首页 > SCI期刊论文
基于最大覆盖的代表Skyline问题的优化算法研究_白梅
来源:一起赢论文网     日期:2022-02-02     浏览数:794     【 字体:

 第43 第12 2020 年12月计 算机 学 报CHINESEJOURNALOFCOMPUTERSVol.43No.12Dec.2020基于最大覆盖的代表Skyline 问题的优化算法研究白 梅 王习特 李冠宇 宁 博 周 新( 大连海事大学信息科学技术学院 辽宁大连 116000)摘 要 Skyl ine查询作为多目标决策的重要手段之一, 可以根据用户偏好, 在大量的数据中挖掘出用户真正感兴趣的数据. 然而, 随着维度的增加以及数据分布的原因, 会导致skyli ne结果数目过多, 查询结果失去意义. 目前, 已有一些工作对代表skyline 问题进行了研究, 即在全部skyline结果中选取丨 个最具代表性的skyli ne元组? 综合考虑代表skyl ine的代表性以及稳定性, 本文选取基于最大覆盖的代表skyli ne问题(^-Maxi mumCoverageSkyline,々-MCS) 问题进行研究. 与之前的A-MCS计算方法相比, 本文提出的算法具有更好的效率. 针对hMCS问题, 首先,本文提出了2维上的基于前缀的优化算法OPA(Opti malPrefixAlgorithm) ,OPA算法利用前缀支配表, 可以通过少量的加减法运算完成最后的结果计算. 接着, 考虑到多维上IMCS问题是一个NP-Hard 问题, 本文提出了优化贪心算法OGA和e-OGA, OGA比基本贪心算法减少了50%以上的计算量.而e-OGA通过引入参数£ , 与OGA算法相比, 仅牺牲以(1 +£) 的精度, 大大加快了计算效率. 最后, 通过大量的实验验证了本文所提算法OPA、 OGA和e ̄OGA的有效性和高效性.关键词 代表skyline;々-MCS; 前缀算法; 贪心算法; 优化算法中图法分类号TP301. 6DOI号10.1 1897/SP. J.1016. 2020. 02276ResearchonOptimizationAlgorithmsofA:-MaximumCoverageSkylineQueriesBAIMeiWANGXi-TeLIGuan-YuNINGBoZHOUXi n^CollegeofInformat ionScience^-Technol ogy^DalianMaritimeUniversi ty^Dalian^Liaoning116000)AbstractAsani mportantoperatorformul ti-cri teriadeci si onmaki ng,skyl i nequeriescanfi ndthedatathatusersarereallyinterestedi nfromalargeamountofdata.Theskylineconsistsofthepointsthatarenotdomi natedbyotherpoi nts.Giventwopoi ntsp\andpz?p\domi natesp2means:thevaluesofp}areasgoodasorbetterthanthoseofp2inal ldimensi ons,andbetteri natleastonedi mension.Inmostcases,theful lskyli nesetisagoodrecommendationsetbecausethetupl eswhi charedominatedbyothersarefilteredout.However,withthei ncreaseofdi mensi onal ityanddistri butionofthedataset ,thenumberofskyli netuplesmaybetoolarge.Astherecommendati onset ,theful lskyli nesetbecomesmeani ngless.Becauseiti si mpracticalforuserstochoosesui tableskyl i nepointsafterbrowsi ngal l skyli nepoints.Hence,recommendingafewrepresentati veskyli nepoi ntswouldbeveryhelpfultousers.Therehavebeensomeworksfocusedonrepresentativeskyli neproblems.Consideri ngtherepresentati venessandstabi l i tyofrepresentati veskyl ines?wechoosetostudythe^-Maxi mumCoverageSkyli ne(^-MCSforshort)probl em.Gi venaparematerkjtheA-MCSisthesetwi thkskyl i nepointswhosedominancesizei sthelargest.Comparedwiththeprevious是-MCSalgorithms, theproposedalgorithmsi nthispaperhavebetterefficiency.Firstly,weproposeanopti mizationprefi x-basedalgorithm( OPA收稿日期: 201 9-09-06 ; 在线发布日期: 2020-02-19. 本课题得到国家自然科学基金项目(61702072 , 61602076,61976032 ) 、 博士后科学基金面上项目(2017M621122 ,2017M611211)、 辽宁省自然科学基金( 20180540003) 、 中央高校基本科研业务费专项资金( 3132019202)资助.白 梅, 博士, 副教授, 主要研究方向为数据管理、云计算和数据查询优化. E-mail:baimei 86122 1@163.com. 王习特, 博士, 副教授, 主要研究方向为大数据管理和并行数据管理. 李冠宇, 博士, 教授, 主要研究领域为智能信息处理和语义物联网. 宁 博, 博士, 副教授, 主要研究方向为数据管理和隐私保护. 周 新, 博士, 讲师, 主要研究方向为数据管理和机器学习.白 梅等: 基于最大覆盖的代表Skyline 问题的优化算法研究 227712 期forshort)fort he^-MCSproblemin2-di mensi onaldatasets.Usi ngtheprefi x-domi nance-table,OPAcanobtai nthe^-MCSresul twithOi kM2)ti mesofaddi tionandsubtractionoperati ons,whereMisthenumberofful lskyli nepoints.Secondl y,consi dert hattheMCSproblemin^/-dimensional(i/>3)datasetsi saNP-hardproblem,twoopti mai zati ongreegyalgori thmsOGAande-OGAareproposed.InOGA,animprovedformul aisproposedtoquicklycal culatethedomi nancesizeofaset.Al so,afil teri ngst rategyi sproposedtoavoi dthecal cul ati onsofsomeredundanttupl es.Hence, comparedwiththebasicgreedyalgorit hm,OGAreducesmorethan50%calculati onsandhavethesameaccuracy.Next , byi ntroduci ngaparametere, thealgori thme-OGAisproposed.Thecomputati onofe-〇GAcanbetermi natedi nadvancewit haguaranteei ngaccuracy.Comparedwi thOGA,e-OGAcangreatl yspeedupthecal culationeffi ciencybysacrificinge/(1 +e)accuracy, whereeisasmal lvaluegi venbyusers.Final l y, theeffectivenessandefficiencyoftheproposedalgorithmsOPA,OGAande-OGAareveri fiedbyalargenumberofexperi ments.Inconcl usi on,comparedwiththepreviousalgorithmPBA,OPAhasbetterefficiencyandthesameaccuracy,becauseitcani ncreasethereuserateoftheresultsintheprefi x-domi nance-tablesandreduceunnessarycal cul ati onsofsometupl es.ComparedwiththebasicalgorithmGA,OGAhasbetterefficiencyandthesameaccuracy, becausei tcanreusetheprevi ouscalculati onresultstocomputethedomi nacesi zeofaset.Also,itcanavoidsomeunnessarycalculati onsusingthefilteri ngstrategies.Comparedwithe-GA, e ̄()GAhasbetteraccuracybysacri fici ngasmal lamountofrunni ngti me.Comparedwi t ht hepreviousalgori t hmRT,e-OGAhasbetteraccuracyandbetterti meefficiency.Keywordsrepresentati veskyline;々-MCS;prefi xalgorithm;greedyalgori t hm;opti mizati onalgori thmsi 引 言随着“大数据”时代的到来, 数据已经成为重要的生产因素. 对海量数据的挖掘和运用, 已成为国内外广大学者的研究重点. 轮廓查询( skylineqUery)[1_2]作为多目标决策( Mul ti-Cri teriaDecision-Maki ng,MCDM)手段, 可以通过偏好函数帮助用户从海量信息中提取出有针对性的价值富集, 同时, 轮廓查询还可以快速地确定数据集的帕累托边界(paretofrontier), 这些都使得轮廓查询在许多实际应用中有着非常重要的作用.在介绍轮廓集合的概念之前, 需要先引入支配的概念. 具体地, 给定两个元组久和九,/>, 支配和指的是: 在所有维度上,九都好于或者等于外; 至少在一个维度上,九要好于九. 为了表述方便, 在本文里, 值越小被认为越“好”. 现实生活中, 所有的数值都可以通过0-1 标准化?落在[0, 1]区间内. 因此,如果某个属性值越大越好, 可以采用l-:r的方法进行转换, 使得转换后的值越小越好. 轮廓集合包含了所有不被其它元组“支配”的元组. 如图1 所示,一共有1 6 条房产记录{/),,仏,…,九6 }. 每一条房产信息包括2 个维度信息: 与最近的交通站点的距离和每平米单价. 其中, 距离值和价格都通过〇-1 标准化映射到[〇,1]区间内, 并以“小”值为优. 图中九在两个维度都比九。小, 那么说明九的交通情况和价格都九( 0.1, 0.6) 1.0户2(0.2,0.4 )0.90.8/>3( 0.3,0.3)0.7久( 0.35,0.2 )0.6窆0.50.4/>5(0.6,0.15 )久(0.7,0.1 )0.30.2p7( 0.8,0.05)0.10. 10.20.30.40.50.60.70. 80.91.0距离图1 轮廓和A 最大覆盖轮廓(々=3)① 0-1fa; 准化: 也称离差标准化, 它是对原始数据进行线性变换. 使结果落到[〇 , 1] 区间.2278 计 算机 学 报 2020年比九。好, 则九支配久。. 图中的轮廓集合是{ 九,办,…,和}, 其它的房产记录都可以被{ 九,办,一,和} 中的1 个或多个元组支配.通过上述例子, 可以发现尽管轮廓查询已经大大方便了人们的结果选择, 但是当人们关注的维度较多, 或者关注的数据集较大时, 会造成轮廓元组的数目大大增加[2]. 这时, 整体轮廓集合对于用户的意义将变小, 因此, 通过优中选优, 推荐有限数目的具有代表性的轮廓元组给用户将变得十分必要. 本文主要针对代表轮廓问题进行了研究, 即在整体轮廓中选出具有代表性的有限数目的轮廓元组. 代表轮廓在多目标决策问题上比轮廓集合更具有意义, 尤其适合分布复杂和体量庞大的数据集合, 更加适用在“大数据”时代中.目前, 关于代表轮廓问题[36]的研究已取得了很多成果. Bai 等人[3]和Sohol m等人w提出了基于最大覆盖的代表轮廓问题—^最大覆盖轮廓々-MCS. 具体地, 给定一个参数纟, 从整体轮廓中选出是个轮廓元组, 使得他们可以支配的面积( 体积或超体积) 达到最大. 如图1 所示, 图中全体轮廓为{A,外,…,外},当6=3 时, {/>1 , >2 , ?4}能够支配的区域如图中覆盖所示, 它们的支配面积是0. 04+0.09+0.52= 0.65. 其它包含3 个轮廓元组的集合的支配面积都小于〇.65, 所以,{ 九,九,/>4} 就是3-最大覆盖轮廓.正如文献[3-4] 中提到的, 对比其它代表轮廓,h最大覆盖轮廓更加稳定、计算速度更快、且具有很好的代表性. 但是, 之前设计的f MCS算法 在计算过程中, 对于某些必要的中间结果没有进行保留,所以需要大量的重复性计算, 导致算法效率偏低. 且造成每次计算比较复杂, 浪费了大量的算力. 因此,本文设计一种方法, 通过保留最为适合的中间结果,充分复用这些中间结果值, 避免了大量的重复计算,从而加速了IMCS的计算. 归结起来, 本文的主要贡献如下:(1) 针对2 维数据空间中的fMCS问题, 提出了基于前缀支配表的前缀优化算法OPA. 利用优化的求前缀公式, OPA可以通过〇( 々M2) 次加减法运算完成PMCS的计算, 其中M是整体skyli ne 元组的数目.(2) 针对多维数据空间中的IMCS问题, 提出了优化贪心算法OGA, 对比基础贪心算法, 在保证相同精确度的前提下减少50%以上的计算量; 之后, 在OGA算法的基础上, 提出了提前截断算法e-OGA.与OGA算法相比, e-OGA通过牺牲以(1 +£) 的精度, 大大提局计算效率.(3) 设计了详细的性能评价实验, 实验结果表明本文所提出的算法〇PA、OGA和e-OGA能够分别高效地处理2维和多维空间中的A-MCS问题. 与之前算法相比较, 本文提出的算法具有更好的计算效率.本文第2 节回顾相关工作; 第3 节介绍最大覆盖代表轮廓IMCS的相关定义; 第4 节详细描述本文所提出的々-MCS的査询算法, 针对2 维空间, 提出OPA算法; 针对多维数据空间, 提出优化贪心算法OGA和e-OGA; 第5 节给出实验结果与分析; 第6 节对全文进行总结.2 相关工作轮廓查询(skyli nequery) 的概念最早由Borzsonyi等人[1]在2001 年提出, 轮廓查询的前身是最大向量问题[7]. 文献[8]对skyli ne 及其变体查询进行了综述性概括, 包括skyli ne 查询及其变体查询的相关文献. 与本文关联较大的所有文献都在2.2 节进行了介绍.2.1 轮廓查询算法文献[1]中最早提出了两个轮廓查询算法BNL和D&C. BNL依次扫描全体数据并把不被支配的元组加人到候选集合中, 通过多次迭代求出最终的轮廓集合. D&C算法把全体数据分成多个子集并求出每个子集的子集轮廓, 然后合并所有的子集轮廓得到最终的轮廓集合. SFS算法?首先按照单调函数把数据集排序, 使得排在后面的数据不可能支配排在前面的数据, 利用该性质来计算轮廓集合.利用索引, 轮廓查询的效率得到了大大提高.Bitmap算法[1°]首先把每个元组映射成一个m位的矢量, 利用转换后的矢量求解最终的轮廓集合. NN算法[1 1]和BBS算法[1 2]利用R-tree索引来管理全部的数据元组, NN利用最近邻来进行过滤求得最终的轮廓集合. BBS算法通过访问那些包含最终轮廓元组的R-tree 节点来求得最终的轮廓集合. ZBtree算法[1 3]采用Z-order 索引来管理全体数据, 并利用Z-order 之间的顺序过滤, 来计算最终的轮廓结果.此外, 还有很多研究是针对特定环境下的轮廓查询问题. 如数据流上的轮廓查询[14 1 5]算法, 旨在解决那些数据频繁更新的多目标决策问题, 适用于股票市场、传感器环境监控方面等. 分布式环境上的白 梅等: 基于最大覆盖的代表Skyli ne问题的优化算法研究 22791 2 期轮廓查询算法[1 6 1 7], 旨在解决数据体量大的多目标决策问题, 适用于电子商务环境、 传感器网络等数据量大的环境中. 不确定环境上的轮廓查询[1 8]算法,旨在解决数据值不完全精确环境下的多目标决策问题, 适用于数据范围观测环境中.2. 2 代表轮廓查询算法随着数据时代的到来, 轮廓查询处理的数据量越来越大, 数据分布越来越复杂, 从而导致了整体轮廓的大小越来越大. 当整体轮廓元组数目过多时, 对整体轮廓的研究意义将变小. 因此, 越来越多的学者致力于代表轮廓[3 6]的研究.文献[19-24]中通过改变支配定义, 来控制最终结果的数目, 选出的结果元组有可能不是传统的轮廓元组. 文献[19]中提出了f支配的概念, 元组九能够t支配A指的是: 在选中的々 个子维度上, 九支配外. 通过选择合适的子维度就可以控制结果元组的数目. Peng等人?针对高维上的 支配skyli ne问题提出了一种并行解决方法, 利用GPU框架来快速计算P支配skyl ine 结果. Xi a 等人[2°]提出了e-支配的概念, 元组九能够 支配h指的是: 九每个维度上的值增加e 后, 转换后的九支配外. 通过调整£ 值, 就能控制结果元组的数目. 信等人 提出了F支配的概念, 元组九能够 支配/>2 指的是:扣每个维度上的值增加^倍后, 转换后的久支配外.通过调整厂值, 可以控制结果元组的数目. Zhang等人[2 2]提出了圆锥支配的概念, 九能够圆锥支配九指的是: 九与九形成的斜率在圆锥角度范围内. 通过调整圆锥的角度, 就可以调整结果元组的数目.文献[23]提出了top-々 轮廓, 每个元组都根据该元组的支配能力( 即该元组可以支配的其它元组的数目) 进行排序, 选出排在前々 个的元组作为t〇p4轮廓结果返回. 之后, 文献[24]研究了数据流上的topi轮廓问题. 无疑地, 该top-々 轮廓只考虑了单个元组的支配能力, 没有考虑返回结果的整体支配能力. 更有甚者, top-々 轮廓选出的代表元组有可能集中在一起, 且不是轮廓元组, 因此, top-A 轮廓的代表性并不够好.Li n等人 提出了基于整体支配数目的代表轮廓RSP. RSP希望选出々 个轮廓点, 使得选中的是个轮廓点可以支配的元组数目达到最大. 无疑地,RSP能保证选中的轮廓元组具有良好的代表性. 但是, RSP的稳定性较差, 且计算复杂. 当数据集合变化时, 非轮廓元组会影响RSP的结果.Tao等人[5]提出了基于距离的代表轮廓DRS.DRS采用距离来衡量选定集合的代表性. 给定一个有是个轮廓元组的子集K:, 整体轮廓用SKY表示,子集K的代表因子为£r( K, SKY)=maxRSKy_K{ miiveK 丨/>,//丨 } , 其中丨丨 是元组p和//的欧几里德距离. 简单说来, £>( K, SiCY)的含义就是选中々个元组, 记录每个未选中的元组距离它最近的选中元组的距离, 其中的最大距离就是K的距离因子. DRS是因子数£r( K, SKY) 最小的子集K. 当某个维度进行缩放的时候, 例如单位由千米变成米,DRS的结果会发生变化. 同时, 这种代表轮廓的定义也忽视了轮廓定义的核心, 与支配能力完全无关.另外, 文献[25-26] 中提出了后悔集合的概念.文献[25]提出了最小后悔代表集合概念, 文中首先定义了后悔的概念, 即针对每个用户, 全集的最高打分函数减去选中子集的最高打分函数就是该集合针对该用户的后悔值, 而后悔率就是后悔值与选中子集打分函数的比值, 最小后悔代表集合就是选中大小为々的子集, 使得所有用户的后悔率的上确界值最小. 文献[26]提出了I后悔最小集合, 文中定义了 后悔值为全集中第6 高的打分函数值减去子集中最高打分函数值. 而f后悔率就是々 后悔值与全集中第々 高的打分函数值的比值 后悔最小集合就是选中大小为r 的子集, 对所有用户的 后悔率的上确界最小. 文献[25-26]都以后悔值为目标进行考虑, 这样选中的代表集合与用户在各个维度的打分函数关系十分密切. 文献[27]中提出了基于意义和多样性的代表轮廓SDRS, 他们希望设定一个合理的参数, 综合考虑多样性和意义. 其中, 多样性采用距离来衡量, 即选择的元组相距越远, 多样性越好. 而选中元组的意义由sigmoid 函数来衡量. 文献[28]中提出了基于点击的代表轮廓, 即对每个轮廓元组都记录一个用户点击它的概率值, 选出々 个轮廓元组, 使得用户点击其中一个元组的概率值达到最大. 上述的几种代表轮廓的定义都忽视了轮廓的核心定义—支配能力, 且它们的计算都是非常复杂的.另外还有很多文献[29]采用代表轮廓的概念用来过滤, 这些文章中的代表元组的选择标准与本文选定的选择标准都是类似的, 是基于支配面积(体积或者超体积) 的, 但是这些文章都没有给出详细的求解方法, 导致选出的代表轮廓误差太大.①PengY-W, ChenW-M. Parallel是-dominant skyline queriesinhigh-dimensionaldatasets.Informati onSciences,ht tps://doi.org/l〇.1016/j. i ns. 2019. 01. 0392280 计 算机 学 报2020年与本文最相近的文献是文献[3-4 , 30], 它们研究的都是基于最大覆盖( 即支配面积、 体积或超体积) 的代表轮廓查询tMCS问题. 文献[4]中只论述了该代表轮廓选取标准的优越性, 没有就IMCS问题给出实际的解决办法. 文献[3]中给出了IMCS问题的详细解决办法, 但是它的处理办法中对计算的复用率不够, 导致算法效率并不够高. 文献[30]主要针对/r-MCS问题的删除鲁棒性问题进行了研究,但是只针对多维贪心算法给出了优化查询算法RT.RT采用了Lazi er 贪心加速算法[: il]的思想, 首先求出一个corset 集合, 而后只在coreset 集合中进行计算, 不用对全集进行计算.本文针对tMCS问题设计了一种更加灵活、 高效的解决办法, 有效提升了々-MCS问题的计算效率.3 问题描述本文针对基于最大覆盖的代表轮廓查询tMCS问题进行了研究. 为了描述方便, 表1 中给出了本文的符号定义.表i 符号表示符号 符号含义P', P2 数据元组P 数据集合SKY( P)/SKY 数据集合P的轮廓集合d 数据集合P的维度Px li] 元组灼在维度/ 上的值k 代表轮廓元组的数目k-MCS( SKY) 基于最大覆盖的々-代表轮廓DomSize(Si )/DomSi zeiS)元组5,/集合S的支配(超) 体积/面积Int Size( S) 集合S所有元组的相交支配(超) 体积/面积Int Sizei s,* S) 元组&和集合S支配面积/ 体积相交部分的大小i-Set s(. S) S中任意/ 个元组组成的所有集合PreSet (Si ) 排在6?, 之前的元组组成的集合PreSize(S*s, ) ? S对^的前缀支配面积IncreSizei s, ? S) 元组. 、?, 相对于s的增M支配体积/面积给定1 个d维的数据集合P, 每个数据元组P可以表示为/>=〈/>[1],/>[2],- ",/^]〉 , 且每个维度上的值都以小值为优, 并映射到[〇, 1] 区间内. 通过映射函数, 可以把每个数据在各维度上的值都转化到[〇,1]范围内. 下面. 本文回顾一下轮廓的基本概念.定义1( 支配[1]) .给出d维数据集合 ,/>2 6/5, 丸支配九( 记作/>, <内) 需要满足以下两个条件: (l ) V/ e{1 , 2,. ", 々},/>, 九[仏( 2)3) 6{1,2,—, d)[j]</>2[j].集合P中所有不被其它元组支配的元组就组成了P的轮廓集合, 记作SKY( P)={ />, 丨 丸,P, 3 ^<九}, 简写为SKY.本文研究的是基于最大覆盖( 支配面积或体积)的代表轮廓问题fMCS. 在介绍fMCS的标准定义之前, 先介绍如何求解一个集合的支配面积( 体积) . 由于每个元组在所有维度上的值都可以标准化到0-1 范围内, 基于此标准, 下面给出一个d维元组P的支配大小( 支配体积或支配面积) , 记作dJJ(1—/?[z’]). 给定一个含有w个元1 = 1组的d维集合s={ p丨, 九,…,A, }, S的相交支配大小指的是集合中所有元组共同支配区域的大小, 记d作^Sz’2:e( S)=JJ(1—maxpf(九[z.]) ) .给定元i=i组f 和集合S,p和S的相交支配大小为能够被f和S共同支配区域的大小, 记作JmSf^( p, S).如图2 中所示, 元组和的支配大小 (九)=(1—0?2)X(1—0?4)=§, 48? 集合Si={/>i ,/>2 ,九} 的相交支配区域如图中深色部分所示, 相交支配大小为)=(1—0?35)X(1—0?6)=0?26? 给定集合S2={ 九,/?2 } 和元组Ai 夕4,S2) 的大小如图中所有填色部分所示( 1一0. 4)X( 1—0.35)=0.39.0.8垄0.6^0. 50.40. 20. 10图2集合的支配大小举例根据文献[3] 中的定义2, 可以得到一个集合的含有72 个元组的d维数据集合S={ 九,p2,…,A, },S的支配大小如式(1 ) 

[返回]
上一篇:面向Flink迭代计算的高效容错处理技术_郭文鹏
下一篇:基于身份的可验证密钥的公钥内积函数加密算法