面向Flink迭代计算的高效容错处理技术_郭文鹏 - SCI期刊论文 - 一起赢论文辅导网--专业代写代发SCI、EI、核心期刊、代写MBA、硕博毕业论文。QQ910330594

欢迎访问一起赢论文辅导网

加入收藏 | 设为主页 | 联系我们

本站动态

联系我们

QQ：3949358033

微信：paperwinner

工作时间：9:00-24:00

成功案例

SCI期刊论文

当前位置：首页 > SCI期刊论文

面向Flink迭代计算的高效容错处理技术_郭文鹏

来源：一起赢论文网日期：2021-02-01 浏览数：3035 【字体：大中小】

第４３卷第１１期２０２０年１１月计算机学报ＣＨＩＮＥＳＥＪＯＵＲＮＡＬＯＦＣＯＭＰＵＴＥＲＳＶｏｌ． ４３Ｎｏ． １１Ｎｏｖ． ２０２０面向Ｆｌｉｎｋ迭代计算的高效容错处理技术郭文鹏ｎ赵宇海＂王国仁２）韦刘国ｎ东北大学计算机科学与工程学院沈阳１１０１６９）２）（北京理工大学计算机学院北京１０００８１）摘要迭代计算是相同逻辑的重复执行，在各种机器学习和数据挖掘方法中被广泛使用．在大数据的处理与分析领域中，分布式迭代计算更是当前的热点研究问题之一．容错机制是分布式系统高可用性的必要保证．现有分布式系统的容错机制虽然在髙可用性上表现良好，但忽略了面向迭代计算的容错效率问题．本文针对批流混合大数据计算系统Ａｐａｃｈｅ Ｆｌｉｎｋ的迭代容错效率问题，进行了系统的研究．执行流处理任务时，Ｆｌｉｎｋ采用“ 分布式快照”的检查点机制来完成容错．对于海量数据的迭代分析，检查点增加了不必要的延迟．执行批处理任务时，Ｆｌｉｎｋ采用从头执行任务的方式来实现容错，该方式虽然实现简单，但带来了很大的时间开销．针对以上问题，本文首先提出了一种基于补偿函数的乐观迭代容错机制．该容错机制在迭代任务发生故障时采用乐观补偿的思想恢复任务，在迭代执行过程中不采用任何额外的容错手段（不会引人额外的容错开销），采用用户自定义的补偿函数收集健康节点上的迭代数据，并结合初始的迭代数据对故障节点上丢失的分区数据进行恢复，继续执行至迭代收敛状态，保证了迭代任务的高效顺利执行．由于乐观迭代容错机制并不保证得到的结果与无故障执行得到的结果完全一致，因此针对精度要求较高的迭代任务，本文结合Ｆｌｉｎｋ系统的迭代数据流模型，进一步提出一种基于头尾检査点悲观迭代容错机制．与传统的阻塞检査点（阻塞下游操作符）的工作方式不同，该容错机制以非阻塞的方式编写检査点，充分结合ＦＵｎｋ迭代数据流的特点，将可变数据集的检查点注人迭代流本身．通过设计迭代感知，简化了系统架构，降低了检査点成本和故障恢复时间．本文基于Ｆｌｉｎｋ系统，在大量的真实数据集和模拟数据集上，从增量迭代和全量迭代两方面对提出的两种容错机制进行了全面的实验研究，验证了本文提出的迭代容错优化技术的高效性．实验结果证实，本文基于Ｆｌｉｎｋ系统提出的乐观容错机制和悲观容错机制在计算效率上均优于现有的分布式迭代容错机制．前者在全量迭代计算任务中运行时间最髙可提升２２． ８％，在增量迭代计算任务中最髙可提升３３． ８％；后者在全量迭代任务中最高可节省１５．３％的时间开销，在增量迭代任务中最高可节省１８． ５％的时间开销．关键词分布式迭代计算；Ａｐａｃｈｅ Ｆｌｉｎｋ；乐观容错；悲观容错；检查点中图法分类号ＴＰ１８ＤＯＩ号１０．１１８９７／ＳＰ．Ｊ．  １０１６．  ２０２０．０２１０１Ｅｆｆｉｃｉｅｎｔ Ｆａｕｌｔ－Ｔｏｌｅｒａｎｔ ＰｒｏｃｅｓｓｉｎｇＴｅｃｈｎｏｌｏｇｙｆｏｒＦｌｉｎｋＩｔｅｒａｔｉｖｅＣｏｍｐｕｔｉｎｇＧＵＯＷｅｎ－ＰｅｎｇｎＺＨＡＯ Ｙｕ－Ｈａｉ１）ＷＡＮＧＧｕｏ－Ｒｅｎ２）ＷＥＩ Ｌｉｕ－Ｇｕｏｎｌ） （．ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒ Ｓｃｉｅｎｃｅ ａｎｄＥｎｇｉｎｅｅｒｉｎｇ ＾Ｎｏｒｔｈｅａｓｔｅｒｎ Ｕｎｉｖｅｒｓｉｔｙ ＊ Ｓｈｅｎｙａｎｇ１１０１６９）２＞ （Ｓｃｈｏｏｌ  ｏｆＣｏｍｐｕｔｅｒ Ｓｃｉｅｎｃｅ ａｎｄ Ｔｅｃｈｎｏｌｏｇｙ？ Ｂｅｉｊｉｎｇ Ｉｎｓｔｉｔｕｔｅ ｏｆ Ｔｅｃｈｎｏｌｏｇｙ Ｕｎｉｖｅｒｓｉｔｙ ， Ｂｅｉｊｉｎｇ１０００８１）ＡｂｓｔｒａｃｔＩｔｅｒａｔｉｖｅ ｃａｌｃｕｌａｔｉｏｎ ｉｓ  ｔｈｅ ｒｅｐｅａｔｅｄ ｅｘｅｃｕｔｉｏｎｏｆ ｔｈｅ ｓａｍｅ ｌｏｇｉｃａｎｄ ｉｓｗｉｄｅｌｙ ｕｓｅｄ ｉｎｖａｒｉｏｕｓ ｍａｃｈｉｎｅｌｅａｒｎｉｎｇａｎｄｄａｔａｍｉｎｉｎｇｍｅｔｈｏｄｓ．Ｉｎ ｔｈｅ ｆｉｅｌｄｏｆｂｉｇｄａｔａｐｒｏｃｅｓｓｉｎｇａｎｄａｎａｌｙｓｉｓ，ｄｉｓｔｒｉｂｕｔｅｄｉｔｅｒａｔｉｖｅｃｏｍｐｕｔｉｎｇ ｉｓ ｏｎｅ ｏｆ ｔｈｅ ｃｕｒｒｅｎｔｈｏｔ ｒｅｓｅａｒｃｈ ｉｓｓｕｅｓ．Ｆａｕｌｔ ｔｏｌｅｒａｎｃｅ ｉｓ ａｎｅｃｅｓｓａｒｙｇｕａｒａｎｔｅｅ ｆｏｒｈｉｇｈ ａｖａｉｌａｂｉｌｉｔｙｏｆｄｉｓｔｒｉｂｕｔｅｄｓｙｓｔｅｍｓ．Ａｌｔｈｏｕｇｈ ｔｈｅ ｆａｕｌｔｔｏｌｅｒａｎｃｅｍｅｃｈａｎｉｓｍｏｆ ｅｘｉｓｔｉｎｇ ｄｉｓｔｒｉｂｕｔｅｄ ｓｙｓｔｅｍｓｐｅｒｆｏｒｍｓｗｅｌｌ ｉｎｈｉｇｈ ａｖａｉｌａｂｉｌｉｔｙ，ｉｔ ｉｇｎｏｒｅｓ ｔｈｅｐｒｏｂｌｅｍｏｆ  ｆａｕｌｔ ｔｏｌｅｒａｎｃｅｅｆｆｉｃｉｅｎｃｙｆｏｒ ｉｔｅｒａｔｉｖｅ ｃｏｍｐｕｔｉｎｇ．Ｔｈｉｓ ｐａｐｅｒ  ｓｙｓｔｅｍａｔｉｃａｌｌｙ ｓｔｕｄｉｅｓ ｔｈｅ ｉｔｅｒａｔｉｖｅ收稿日期：２０１９－０９－０２；在线发布日期：２０２０－０２－１３．本课题得到科技部重点研发项目“ 云计算和大数据” 重点专项项目（２０１８ＹＦＢ１００４４０２）和国家自然科学基金（６１７７２１２４）资助．郭文鹏，硕士研究生，主要研究方向为大数据．Ｅ－ｍａｉｌ： １７６２８８２２３２４＠ｑｑ．ｃｏｍ．赵宇海（通信作者），博士，教授，中国计算机学会（〇＾）高级会员，主要研究领域为数据挖掘．￡－１１＾丨：２１１３〇７１１１＾＠１１＾１．１１扣．６（１１１．〇１．王国仁，博士，教授，中国计算机学会（ＣＣＦ）高级会员，主要研究领域为数据库．韦刘国，硕士研究生，主要研究方向为大数据．２１０２ 计算机学报 ２０２０ 年ｆａｕｌｔ－ｔｏｌｅｒａｎｔｅｆｆｉｃｉｅｎｃｙｏｆ ｂａｔｃｈ－ｆｌｏｗ ｈｙｂｒｉｄ ｂｉｇ ｄａｔａ ｃｏｍｐｕｔｉｎｇ ｓｙｓｔｅｍＡｐａｃｈｅ Ｆｌｉｎｋ．Ｗｈｅｎｐｅｒｆｏｒｍｉｎｇｓｔｒｅａｍ ｐｒｏｃｅｓｓｉｎｇｔａｓｋｓ，Ｆｌｉｎｋ ｕｓｅｓ ａ “ｄｉｓｔｒｉｂｕｔｅｄ ｓｎａｐｓｈｏｔ” ｃｈｅｃｋｐｏｉｎｔ ｍｅｃｈａｎｉｓｍｔｏｃｏｍｐｌｅｔｅ ｆａｕｌｔｔｏｌｅｒａｎｃｅ．Ｆｏｒ ｉｔｅｒａｔｉｖｅ ａｎａｌｙｓｉｓ ｏｆ ｍａｓｓｉｖｅｄａｔａ，ｃｈｅｃｋｐｏｉｎｔｓ ａｄｄｕｎｎｅｃｅｓｓａｒｙｄｅｌａｙ．Ｗｈｅｎｐｅｒｆｏｒｍｉｎｇｂａｔｃｈｐｒｏｃｅｓｓｉｎｇｔａｓｋｓ，Ｆｌｉｎｋ ｕｓｅｓ ｔｈｅｔａｓｋ ｅｘｅｃｕｔｉｏｎｍｅｔｈｏｄｆｒｏｍ ｔｈｅｂｅｇｉｎｎｉｎｇｔｏａｃｈｉｅｖｅ ｆａｕｌｔ ｔｏｌｅｒａｎｃｅ．Ａｌｔｈｏｕｇｈ ｔｈｉｓｍｅｔｈｏｄ ｉｓ ｓｉｍｐｌｅ ｔｏｉｍｐｌｅｍｅｎｔ，ｉｔｂｒｉｎｇｓ ａ ｌｏｔｏｆ ｔｉｍｅｏｖｅｒｈｅａｄ．Ｉｎｖｉｅｗｏｆ ｔｈｅ ａｂｏｖｅｐｒｏｂｌｅｍｓ？ ｔｈｉｓ ｐａｐｅｒ ｆｉｒｓｔｐｒｏｐｏｓｅｓ ａｎ ｏｐｔｉｍｉｓｔｉｃ ｉｔｅｒａｔｉｖｅｆａｕｌｔｔｏｌｅｒａｎｃｅｍｅｃｈａｎｉｓｍｂａｓｅｄｏｎｃｏｍｐｅｎｓａｔｉｏｎ ｆｕｎｃｔｉｏｎｓ．Ｔｈｉｓｆａｕｌｔ－ｔｏｌｅｒａｎｔｍｅｃｈａｎｉｓｍ ｕｓｅｓｏｐｔｉｍｉｓｔｉｃｃｏｍｐｅｎｓａｔｉｏｎｔｏｒｅｃｏｖｅｒ ｔａｓｋｓ ｗｈｅｎｉｔｅｒａｔｉｖｅｔａｓｋｓｆａｉｌ．Ｉｔｄｏｅｓ ｎｏｔ ｕｓｅ ａｎｙａｄｄｉｔｉｏｎａｌｆａｕｌｔ－ｔｏｌｅｒａｎｔｍｅｔｈｏｄｓ （ｉｔｄｏｅｓｎｏｔｉｎｔｒｏｄｕｃｅ ａｄｄｉｔｉｏｎａｌｆａｕｌｔ－ｔｏｌｅｒａｎｔ ｏｖｅｒｈｅａｄ） ｄｕｒｉｎｇｉｔｅｒａｔｉｖｅｅｘｅｃｕｔｉｏｎ， ａｎｄ ｕｓｅｓ ｕｓｅｒ－ｄｅｆｉｎｅｄ ｃｏｍｐｅｎｓａｔｉｏｎ ｆｕｎｃｔｉｏｎｓ ｔｏ ｃｏｌｌｅｃｔ ｈｅａｌｔｈｙｎｏｄｅｓ．Ｉｔｅｒａｔｉｖｅ ｄａｔａ＊ｃｏｍｂｉｎｅｄｗｉｔｈｔｈｅ ｉｎｉｔｉａｌｉｔｅｒａｔｉｖｅｄａｔａ， ｒｅｃｏｖｅｒｓｔｈｅｌｏｓｔｐａｒｔｉｔｉｏｎ ｄａｔａ ｏｎｔｈｅ ｆａｉｌｅｄｎｏｄｅ，ａｎｄｃｏｎｔｉｎｕｅｓｅｘｅｃｕｔｉｏｎｔｏｔｈｅｉｔｅｒａｔｉｖｅｃｏｎｖｅｒｇｅｎｃｅｓｔａｔｅ，ｅｎｓｕｒｉｎｇｔｈｅｅｆｆｉｃｉｅｎｔ ａｎｄｓｍｏｏｔｈｅｘｅｃｕｔｉｏｎｏｆ ｔｈｅ ｉｔｅｒａｔｉｖｅｔａｓｋ． Ｂｅｃａｕｓｅ ｔｈｅ ｏｐｔｉｍｉｓｔｉｃ ｉｔｅｒａｔｉｖｅｆａｕｌｔ ｔｏｌｅｒａｎｃｅｍｅｃｈａｎｉｓｍｄｏｅｓ ｎｏｔｇｕａｒａｎｔｅｅｔｈａｔ ｔｈｅ ｒｅｓｕｌｔｓ ｏｂｔａｉｎｅｄ ａｒｅ ｃｏｍｐｌｅｔｅｌｙｃｏｎｓｉｓｔｅｎｔ ｗｉｔｈｔｈｅｒｅｓｕｌｔｓ ｏｂｔａｉｎｅｄｂｙｆａｕｌｔ－ｆｒｅｅ ｅｘｅｃｕｔｉｏｎ，ｆｏｒ  ｔｈｅｉｔｅｒａｔｉｏｎ ｔａｓｋｓ  ｗｉｔｈ ｈｉｇｈｅｒａｃｃｕｒａｃｙｒｅｑｕｉｒｅｍｅｎｔｓ，ｔｈｉｓ  ｐａｐｅｒ ｃｏｍｂｉｎｅｓ ｔｈｅ ｉｔｅｒａｔｉｖｅ ｄａｔａｆｌｏｗ ｍｏｄｅｌｏｆ ｔｈｅＦｌｉｎｋ ｓｙｓｔｅｍｔｏ ｆｕｒｔｈｅｒｐｒｏｐｏｓｅ ａ ｈｅａｄ－ｔｏ－ｔａｉｌ ｃｈｅｃｋｐｏｉｎｔ．Ｐｅｓｓｉｍｉｓｔｉｃ  ｉｔｅｒａｔｉｖｅｆａｕｌｔ ｔｏｌｅｒａｎｃｅｍｅｃｈａｎｉｓｍ．Ｕｎｌｉｋｅ ｔｒａｄｉｔｉｏｎａｌｂｌｏｃｋｉｎｇｃｈｅｃｋｐｏｉｎｔｓ（ｂｌｏｃｋｉｎｇ ｄｏｗｎｓｔｒｅａｍｏｐｅｒａｔｏｒｓ），ｔｈｉｓ ｆａｕｌｔ－ｔｏｌｅｒａｎｔｍｅｃｈａｎｉｓｍｗｒｉｔｅｓｃｈｅｃｋｐｏｉｎｔｓｉｎａ ｎｏｎ－ｂｌｏｃｋｉｎｇｍａｎｎｅｒ，ｆｕｌｌｙ ｃｏｍｂｉｎｅｓ ｔｈｅｃｈａｒａｃｔｅｒｉｓｔｉｃｓ ｏｆ Ｆｌｉｎｋｉｔｅｒａｔｉｖｅｄａｔａ ｆｌｏｗ， ａｎｄｉｎｊｅｃｔｓ ｖａｒｉａｂｌｅｄａｔａｓｅｔｃｈｅｃｋｐｏｉｎｔｓｉｎｔｏｔｈｅｉｔｅｒａｔｉｖｅ ｆｌｏｗｉｔｓｅｌｆ．Ｂｙｄｅｓｉｇｎｉｎｇｉｔｅｒａｔｉｖｅ ａｗａｒｅｎｅｓｓ，ｔｈｅｓｙｓｔｅｍａｒｃｈｉｔｅｃｔｕｒｅｉｓ ｓｉｍｐｌｉｆｉｅｄ，ａｎｄｃｈｅｃｋｐｏｉｎｔ ｃｏｓｔｓ  ａｎｄ ｆａｉｌｕｒｅ ｒｅｃｏｖｅｒｙ ｔｉｍｅｓ  ａｒｅ ｒｅｄｕｃｅｄ．Ｔｈｉｓｐａｐｅｒ ｉｓ ｂａｓｅｄ ｏｎ ｔｈｅ Ｆｌｉｎｋ ｓｙｓｔｅｍ．Ｏｎａ ｌａｒｇｅｎｕｍｂｅｒ ｏｆ ｒｅａｌ ｄａｔａ ｓｅｔｓ  ａｎｄｓｉｍｕｌａｔｅｄｄａｔａｓｅｔｓ，ａ  ｃｏｍｐｒｅｈｅｎｓｉｖｅ ｅｘｐｅｒｉｍｅｎｔａｌｓｔｕｄｙｏｆ ｔｈｅ ｔｗｏｐｒｏｐｏｓｅｄｆａｕｌｔｔｏｌｅｒａｎｃｅｍｅｃｈａｎｉｓｍｓ ｆｒｏｍ ｔｈｅ ａｓｐｅｃｔｓ ｏｆ ｉｎｃｒｅｍｅｎｔａｌ ｉｔｅｒａｔｉｏｎ ａｎｄ ｆｕｌｌｉｔｅｒａｔｉｏｎ ｉｓ ｃｏｎｄｕｃｔｅｄ， ａｎｄｔｈｅ  ｅｆｆｅｃｔｉｖｅｎｅｓｓ ｏｆ ｔｈｅｐｒｏｐｏｓｅｄｉｔｅｒａｔｉｖｅ ｆａｕｌｔｔｏｌｅｒａｎｃｅ ｏｐｔｉｍｉｚａｔｉｏｎｔｅｃｈｎｏｌｏｇｙ ｉｓｖｅｒｉｆｉｅｄ．Ｅｆｆｉｃｉｅｎｃｙ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｃｏｎｆｉｒｍｔｈａｔｔｈｅｏｐｔｉｍｉｓｔｉｃａｎｄｐｅｓｓｉｍｉｓｔｉｃｆａｕｌｔ－ｔｏｌｅｒａｎｔ ｍｅｃｈａｎｉｓｍｓｐｒｏｐｏｓｅｄｉｎｔｈｉｓｐａｐｅｒｂａｓｅｄｏｎｔｈｅＦｌｉｎｋｓｙｓｔｅｍａｒｅｓｕｐｅｒｉｏｒ ｔｏｔｈｅ ｅｘｉｓｔｉｎｇｄｉｓｔｒｉｂｕｔｅｄ ｉｔｅｒａｔｉｖｅｆａｕｌｔ－ｔｏｌｅｒａｎｔｍｅｃｈａｎｉｓｍｓ ｉｎ ｔｅｒｍｓ ｏｆ ｃｏｍｐｕｔａｔｉｏｎａｌｅｆｆｉｃｉｅｎｃｙ．Ｔｈｅ ｆｏｒｍｅｒ ｃａｎ ｉｎｃｒｅａｓｅ ｔｈｅｒｕｎｎｉｎｇ ｔｉｍｅｂｙｕｐ ｔｏ ２２． ８％ ｉｎｆｕｌｌｉｔｅｒａｔｉｖｅ ｃｏｍｐｕｔｉｎｇｔａｓｋｓ ａｎｄｕｐ ｔｏ ３３． ８％ｉｎ ｉｎｃｒｅｍｅｎｔａｌ ｉｔｅｒａｔｉｖｅ ｃｏｍｐｕｔｉｎｇｔａｓｋｓ；ｔｈｅ  ｌａｔｔｅｒ ｃａｎ ｓａｖｅ ｕｐ ｔｏ １５．  ３％ｏｆｔｈｅｔｉｍｅｏｖｅｒｈｅａｄｉｎ ｆｕｌｌｉｔｅｒａｔｉｖｅｔａｓｋｓ？ａｎｄ ｉｎ ｉｎｃｒｅｍｅｎｔａｌ ｉｔｅｒａｔｉｖｅ ｔａｓｋｓ Ｓａｖｅｓ ｕｐ ｔｏ １８．  ５％ｏｆ ｔｉｍｅ．Ｋｅｙｗｏｒｄｓｄｉｓｔｒｉｂｕｔｅｄ ｉｔｅｒａｔｉｖｅ ｃａｌｃｕｌａｔｉｏｎ；Ａｐａｃｈｅ Ｆｌｉｎｋ；ｏｐｔｉｍｉｓｔｉｃ ｆａｕｌｔ ｔｏｌｅｒａｎｃｅ；ｐｅｓｓｉｍｉｓｔｉｃｆａｕｌｔ ｔｏｌｅｒａｎｃｅ； ｃｈｅｃｋｐｏｉｎｔｉ引言迭代计算通常是数据挖掘和机器学习算法的核心部分，在各类应用中都普遍存在［１］．在搜索领域，由Ｇｏｏｇｌｅ提出的著名的网页排序算法ＰａｇｅＲａｎｋ［２ ３］，其核心思想就是根据网络之中不同网页之间的链接关系进行迭代计算［１］，最终的排名即是迭代最终收敛的值或重要性；在社交网络［５７］领域，很多好友推荐算法都是通过利用现有用户的好友关系网络图通过迭代计算来挖掘用户之间可能存在的潜在链接关系；Ｒａｎｄｏｍ Ｗａｌｋ［８ ９］算法通过迭代计算来求解图中某节点到其它节点的概率；在影音推荐领域，常用的推荐算法是按照用户的喜好来对用户进行聚类，然后向用户推荐同类用户所喜欢的影音资源，这类方法统称为协同过滤推荐［ｉＭ１］．其中基于矩阵分解的协同过滤算法，如交替最小二乘法（ＡＬＳ）和奇异值分解等（ＳＶＤ）等都包含迭代计算；在图论郭文鹏等：面向Ｆｌｉｎｋ迭１１代计算的高效容错处理技术 ２１０ ３期中的连通分支算法也是基于迭代实现的．在数据分析领域中，常用的Ｋ－Ｍｅａｎｓ［１？聚类算法、联合聚类、点对聚类等都包含迭代计算，每次迭代时更新顶点和模型参数的状态，直到满足收敛或停止标准．随着数据的规模日益增长，分布式迭代计算成为大数据处理与分析的研究热点之一．近年来，流行的大数据处理平台ＨａｄｏｏｐＤ３］、Ｓｐａｒｋ［１４］和ＦｌｉｎｋＤ５］都具备处理迭代任务的能力．现有的分布式迭代包含全量迭代和增量迭代两种．全量迭代总是重新计算迭代的中间结果．然而许多情况下，迭代任务的中间状态会以不同的速度汇聚．例如，在大图的单源最短路径的计算中．在这种情况下，系统总是重新计算整个中间状态包括不再变化的部分，从而导致资源浪费．增量迭代可以有效地缓解该问题．该模式使用两个数据迭代状态模拟迭代计算：解集和工作集．解集保存当前中间结果，而工作集保存解集的更新结果．在增量迭代期间，系统使用工作集有选择地更新解集的元素，并根据更新计算下一个工作集．一旦工作集变空，迭代就会终止．无论是全量迭代还是增量迭代，对海量数据而言，都是极其耗时的，并且消耗大量的计算资源．由于分布式计算通常涉及大量计算节点的协同工作，容错性是分布式系统高可用性的必要保证．主流的分布式大数据平台针对迭代计算任务采取了不同的容错机制．分布式系统Ｈａｄｏｏｐ的迭代容错机制主要是通过检查点机制的方式实现，在每个计算的结束阶段设置检查点，发生故障时从检查点读取数据重新执行．反复从底层文件系统中读取数据会造成大量的磁盘１０开销．分布式系统Ｓｐａｒｋ框架中的ＳｐａｒｋＳｔｒｅａｍｉｎｇ采用记录更新的手段实现容错，通过Ｌｉｎｅａｇｅ？技术来实现．对于窄依赖（父ＲＤＤ的每个分区只被子ＲＤＤ的一个分区所引用）的数据因发生故障丢失时，只需要对丢失的那一部分数据进行恢复并重新计算；对于宽依赖（父ＲＤＤ的每个分区可能被多个子ＲＤＤ引用）则必须将其祖先ＲＤＤ中的所有数据块全部恢复并重新进行计算．在宽依赖场景下Ｓｐａｒｋ引人了检查点机制，在执行过程中选取适当的时机备份，通过缩短Ｌｉｎｅａｇｅ链长度来减少容错开销．但在执行过程中，频繁的数据备份操作也会产生极大的网络和磁盘１〇开销．分布式系统Ｆｌｉｎｋ系统现有的批处理和流处理的容错分别采用了逆向恢复容错技术和前向恢复技术．批处理容错机制是当Ｊｏｂ失败时通过使用重启策略对整个Ｊｏｂ重启．流处理容错机制是基于状态一致的分布式快照实现的，这些快照保存了执行图中所有算子及传输通道的状态，这些轻量级快照也可以被视做一种另类的检查点．Ｆｌｉｎｋ的分布式快照采用Ｃｈａｎｄｙ－Ｌａｍｐｏｒｔ［ｌ７］算法实现．该容错机制虽然高效，但需要额外的检查点协调者来实现，管理复杂，且会带来额外的写入开销．Ｆｌｉｎｋ虽然针对其流处理也可以进行迭代计算，在实际应用场景下，大部分的迭代计算任务还是基于批处理执行．综上，现有分布式系统的容错机制大多面向通用的计算任务，在迭代任务上的容错效率较低，没有结合迭代计算任务的特点，代价开销较大．传统分布式系统的容错机制大多采用了悲观的检查点容错机制．通过缓存管理检查点的实现，与流水线数据流无关．然而，这些检查点是以阻塞的方式备份数据，开销较大，且忽略了迭代处理的迭代控制，这使系统设计复杂化，因为需要额外的组件来管理检査点．此外，以分布式方式在海量数据集上执行迭代算法，算法的中间结果必须在机器之间进行分区存储．执行失败将导致丢失这些分区的子集，要继续执行，系统必须首先恢复丢失的数据．发生故障时，系统将暂停执行，从先前写人的检查点恢复一致状态并继续执行．这种方法的缺点是，即使在无故障的情况下，它也会给执行带来开销．对于海量数据的迭代算法，检査点不必要增加了计算的延迟．现有分布式系统缺少了乐观的容错机制，悲观的容错机制忽略了分布式迭代数据流的特点，以阻塞的方式实现容错，代价开销大，容错效率低．针对现有分布式系统迭代容错机制的不足，本文面向大规模分布式迭代计算任务主要贡献有：（１）提出了基于补偿函数的乐观容错机制．该容错机制在迭代执行过程中不采用任何额外的容错手段（不会引人额外的容错开销），在发生故障时，采用用户自定义的补偿函数收集健康节点上的迭代数据，并结合初始的迭代数据对丢失的分区数据进行恢复，保证了迭代任务高效顺利的执行．（２）提出了一种基于头尾检查点的悲观容错机制．与传统的阻塞检查点不同，该容错机制以无阻塞的方式编写检査点，不会破坏流水线操作任务．将可变数据集的检査点注人迭代数据流本身，简化系统架构并有助于在迭代处理期间检查点的创建．（３）将提出的面向迭代任务的乐观补偿函数容错机制和悲观的头尾检查点机制基于高度创新的开源流处理器Ｆｌｉｎｋ进行实现．乐观的补偿函数机制２１０４ 计算机学报 ２０２０年的实现设置了收集数据和补偿恢复丢失数据的接口，可供用户直接使用．头尾检查点机制的实现，在Ｍｉｎｋ迭代处理框架中新增了头尾检查点选项，用户可根据迭代任务类型直接选择．（４）在真实数据集和模拟数据集上从全量迭代和增量迭代方面进行了系统的实验研究，验证了本文提出的容错技术的高效性．本文第２节介绍相关工作；第３节介绍文中涉及的基本概念；第４节描述基于补偿函数的乐观容错机制；第５节介绍基于头尾检査点的悲观容错机制；第６节为实验分析部分；第７节总结了本文的工作．２相关工作目前，国内外被各大企业和研究机构所使用的分布式计算系统主要包括批处理系统，如Ｈａｄｏ叩．流处理系统，如Ｓｔｏｒｍ和Ｓａｍｚａ．混合处理系统（既支持批处理又支持流处理的框架），如Ｓｐａｒｋ和Ｆｌｉｎｋ．各个计算系统都具有自己独特的容错机制，但总体上可以将这些容错机制分为两类，一类是基于检查点的容错机制，一类是基于记录更新的容错机制．分布式系统环境下，假如某个计算节点出现故障，集群和任务将进人故障，容错恢复的目标是采取相应的措施，将任务和系统转换到正确执行的状态．分布式容错恢复技术整体上包括了前向恢复技术（ＦｏｒｗａｒｄＲｅｃｏｖｅｒｙ ）［１８］和逆向恢复（ＢａｃｋｗａｒｄＲｅｃｏｖｅｒｙ）技术［１９］．文献［２０］中提出了一种分布式曰志恢复系统的数据恢复方法．三阶段提交协议比两阶段提交协议能更好地实现分布式事务执行的无阻塞，在分布式数据库发生故障时可以有效地恢复分布式数据库中的数据，保证了分布式日志恢复系统的高可用性和高可靠性．文献［２１］中研究了分布式系统下基于检査点的容错服务，利用系统失效关联性特征来建立模型，得到减小分布式任务的完成时间的检查点放置策略，从而在保证系统可靠性的前提下，降低容错服务的实现代价，提高分布式系统的运行效率．Ｄｕｄｏｌａｄｏｖ等人在文献［２２］中提出了一种使用算法补救的容错机制，该机制利用了数据挖掘和机器学习中使用大量虚拟算法的鲁棒性、自校正性，这些算法从各种中间一致状态收敛到正确的解．该函数在算法上创建这样的一致状态，而不是回滚到先前的检査点状态．该优化机制不会检查任何状态，并且在保证容错所需的开销方面具有最佳的无故障性能．在过去几年中，出现了许多优化的迭代计算系统．像Ｔｗｉｓｔｅｒ［２３］或ＨａＬｏｏｐ［２４］这样的ＭａｐＲｅｄｕｃｅ［１３］扩展，以及像Ｓｐａｒｋ这样的系统能够有效地执行某类迭代算法，Ｆｌｉｎｋ系统在全量迭代的基础上，新增了增量迭代功能．增量迭代是通过部分计算取代全量计算，在计算过程中会将数据分为热点数据和非热点数据，每次迭代计算会针对热点数据展开，这种模式适合用于数据量比较大的计算场景，不需要对全部的输人数据集进行计算，所以在性能和速度上都会有很大的提升．而这些分布式计算系统的容错机制大多以悲观的方式实现，且面向的通用的计算任务．对于迭代任务而言，容错开销大，计算效率低．缺乏了对乐观容错机制的设计，且采用的悲观容错机制多数以阻塞的方式实现．没有结合迭代数据流的特点，引人了不必要的额外开销．此外，现有的分布式系统的检查点机制基于阻塞的方式来实现，即通过阻塞下游操作符等待完整数据的到来．以阻塞方式实现检查点产生了较大的时间开销．针对这些问题，本文提出了面向大规模迭代计算处理的高效容错技术．由于Ｆｌｉｎｋ作为高效的开源批处理器，在批处理和流处理的计算效率上均优于Ｈａｄｏｏｐ、Ｓｔｏｒｍ和Ｓｐａｒｋ［２３］．本文基于Ｆｌｉｎｋ系统实现了基于补偿函数的乐观容错机制和基于头尾检查点的悲观容错机制，并在大量数据集上从全量迭代和增量迭代方面进行了实验研究与分析．３基本概念本节给出文中涉及到的一些基本概念并对要解决的问题给出形式化描述．定义１（步函数）．在迭代计算中，对每一轮迭代输入的数据集进行转换操作的函数称为步函数（ＳｔｅｐＦｕｎｃｔｉｏｎ）．例如，ＰａｇｅＲａｎｋ全量迭代算法在执行时，每一轮迭代都要对顶点的ｒａｎｋ值进行更新．更新ｒａｎｋ值的操作有ＪｏｉｉｕＦｉｌｔｅｒ等操作符，这些操作符构成的数据流图即为该算法的步函数．定义２（超级步）．在迭代计算中，从迭代输人开始，经过步函数的转换，到更新为下一轮迭代输入的整个流程称为超级步．如图１为Ｆｌｉｎｋ官方文档展示的迭代超级步的粒度即同步的粒度．步函数是超级步的组成部分，从第一个超级步迭代输人开始，经过步函数的转换并郭文鹏等：面向Ｆｌｉｎｋ迭１１期 代计算的高效容错处理技术 ２１０ ５更新为第二个超级步的输入．该流程即为一个超级步．１ｓｔ ＳｕｐｅｒＳｔｅｐ２ｎｄ ＳｕｐｅｒＳｔｅｐ３ｒｄ  ＳｕｐｅｒＳｔｅｐ？Ｓｔｅｐ Ｆｕｎｃｔｉｏｎ；Ｓｔｅｐ Ｆｕｎｃｔｉｏｎ ｉＳｔｅｐ Ｆｕｎｃｔｉｏｎ图３全量迭代计算示意图Ｂａｒｒｉｅｒ  Ｓｙｎｃｈｒｏｎｉｚａｔｉｏｎ图ｉ迭代超级步示意图定义３（乐观容错机制）．在分布式系统环境下，如果某个计算节点出现故障，则采取相应的容错机制来把系统恢复到无错误状态．乐观容错机制采用乐观的态度，即假定所有的故障及其恢复策略都事先已知．当系统发现错误后，试图把系统带入一个新状态．该机制要求系统事先掌握可能出现的故障．例如，本文提出的乐观补偿恢复机制，在迭代任务执行之前，需要对分布式系统可能出现故障丢失数据的情况进行采取补偿恢复措施．如果任务没有出现故障，则顺利完成执行．如果出现故障则采用预先定义的补偿措施对故障进行恢复，使用恢复后的数据继续迭代的执行．定义４（悲观容错机制）．悲观容错机制与定义３的乐观容错机制相反，该机制采用的是悲观的思想，假定故障的产生是未知的，在系统执行任务的过程中定期保存一些结果和历史记录信息．一旦发生故障，则可恢复到最新记录的状态．例如，Ｆｌｉｎｋ系统采用的分布式快照机制就是一种悲观的容错机制，如图２所示，以固定的时间间隔将ｂａｒｒｉｅｒ注人数据流，进行Ｃｈｅｃｋｐｏｉｎｔ备份．当出现故障时，恢复到最近的Ｃｈｅｃｋｐｏｉｎｔ时的状态．ｄａｔａ ｓｔｒｅａｍ＿ ｎｅｚｕ ｒｅｃｏｒｄｓｏｌｄｅｒ ｒｅｃｏｒｄｓ —＾ｃｈｅｃｋｐｏｉｎｔｃｈｅｃｋｐｏｉｎｔｓｔｒｅａｍｒｅｃｏｒｄｂａｒｒｉｅｒ ｎｂａｒｒｉｅｒ  ｔｉ—１｛ｅｖｅｎｔ）１，输出迭代ｉ〇次后的结果．在迭代过程中，每一轮迭代都要对所有的数据进行加１操作．这种对全量数据进行转换的迭代过程即为全量迭代．定义６（增量迭代）．增量迭代计算过程如图４所示，通过部分计算取代全量计算，在计算过程中会将数据集分为热点数据和非热点数据，每次迭代计算会针对热点数据展开，不需要对全部的输人数据集进行计算．图４增量迭代计算示意图例如，图论中的连通分支算法，该算法用于求解图的连通性问题．迭代过程为：首先，初始化每个顶点所属的分类值（即所属的连通分量组），每个顶点初始值等于该顶点值的Ｉｄ．其次，每个顶点搜索其相邻的顶点，如果顶点的分类值小于该顶点的分类值，则更新该顶点的分类值，并在连通图中传播．最后，当没有顶点需要更新时，所有连通图包含的顶点具有相同的分类值，算法结束．这种只需对部分数据进行转换的操作即为增量迭代．４基于补偿函数的乐观容错机制ｐａｒｔ  ｏｆｐａｒｔ ｏｆｐａｒｔ  ｏｆｃｈｅｃｋｐｏｉｎｔ  ｎ＋１ｃｈｅｃｋｐｏｉｎｔ ｎｃｈｅｃｋｐｏｉｎｔｎ — １图２Ｆｌｉｎｋ系统分布式快照示意图定义ｓ（全量迭代）．全量迭代计算过程如图３所示．在数据流接人迭代算子的过程中，步函数每次都会处理全量的数据，然后计算下一次迭代的输入，即图中的ＮｅｘｔＰａｒｔｉａｌＳｏｌｕｔｉｏｎ，最后根据触发条件输出迭代计算的结果．例如，给定一组数据，迭代步函数为迭代数据加本节针对现有分布式计算系统悲观容错的迭代容错机制额外开销大，需要额外的组件控制检查点协同者，实现复杂等特点．提出了一种面向迭代任务的乐观补偿函数容错机制．该容错机制在迭代执行过程中，不会引人任何额外的开销．如果出现故障，则采用用户自定义的补偿函数收集健康节点上的数据，并结合初始迭代数据对丢失的分区数据进行恢复．现有的分布式系统未引人乐观恢复机制的原因之一在于，补偿函数完全由用户编写，实现难度大．２１０６ 计算机学报 ２０２０年本节的乐观补偿函数机制在实现时为用户提供了收集数据和恢复数据的接口，可供用户直接使用．该机制保证了迭代任务高效顺利的执行，得到的结果可以收敛到无故障执行时的近似状态．本节首先分析了分布式迭代的收敛性，证明了补偿函数的乐观容错机制的正确性．然后从全量迭代和增量迭代的角度实现了补偿函数容错机制．４．１分布式迭代计算的收敛性在计算机科学中，迭代是对一段程序的反复执行．迭代可以表示一种状态，该状态以可变重复的形式存在．迭代计算是数学领域中的常见的计算方式，常见的应用有矩阵求解特征值问题以及方程组求解等问题．迭代的求解思路是不断趋近，选择一个粗略的初始值，采用迭代公式不断地更新该值，如果该值满足收敛条件即精度满足或者迭代次数满足则终止．否则，将继续更新和计算该值．大数据系统的分ｎｏｄｅｌｎｏｄｅ２ｎｏｄｅ３ｎｏｄｅ４图５Ｆｌｉｎｋ系统中的分布式迭代数据流其中，分布式迭代计算可以表示为ｘ＊ ＝／（工以－１）），々＝１，２，…， ”（１）其中变量ｉ表示的迭代过程中不断更新计算的数值，即迭代变量．公式左边的Ｖ表示迭代计算到第办次时的值，公式右边／是第々次迭代结果计算的通用表达式，即迭代函数．分布式迭代算法执行过程中，每一轮迭代所需的数据可以表示为Ｐ，记为迭代变量．可以使用向量／Ｔ＝（ｘＰ，ｘｆ，…，：＾）来表示迭代变量，其中每个ｘｆ都是一个迭代元素．／为ＪＴ的映射，／是需要反复执行的一系列操作集合（／，，／２，…，／，，），每个／，函数只负责计算向量Ｐ的第／个元素，因此式（１）等价于方程组（２）的形式：＝／，（：＾卜１），ｘ广ｄ，…，工广＂），ｉ ＝ １，２，…，ｎ（２）分布式迭代计算的初始向量可以表示为ｕｒ，：＾，…，：＾），利用式（２）可逐次计算迭代向量文⑴＝（ｘｊ＊＞，工ｐ，…，工，），是＝１，２，…， ” ？若向量序列Ｗ｝无限趋近于向量；ｒ＝（ｘｒ，…，〇，即，＝／（，）．则向量为迭代计算的解．在某些特殊形况下求得最佳，并非容易，可能需要大量的迭代过程．但根据迭代求解的特点可知，满足迭代算法精度的近似值ｙ可以充当算法的解．迭代计算的构建比较简单，但许多迭代模型的计算过程都并非趋近于特定解．也即不会收敛．现实生活中只有收敛的迭代模型对用户有真实的意义，故迭代的收敛标准和条件对于迭代计算而言，尤为关键．为了便于理解，可以将式（２）转化为ｊｃｕ， ＝Ｍｘａ￣ｎ＋ｐ．ｋ ＝ ｌ，２，－，ｗ（３）其中Ｍ称为迭代矩阵，／｝为一向量．当式（３）收敛时，则有：ｊｃ＊ ＝Ｍｘ＋ｐ（４）记误差向量那么ｊｃ？当且仅当＃ — ０．由式（３）和（４）可得误差向量的递推公式：ｅ＊＝Ｍｅ＇＊ — ＂，々＝１，２，…，ｗ（５）对式（５）递推得到：ｙ＝Ｍｅ？丨＞，６ ＝ １，２，…，？（６）因此，当时，Ｖ —０的充分必要条件是：０．推论１．迭代计算是否逼近某个值与迭代构成的矩阵Ｍ相关，即迭代是否收敛与迭代计算的函数密不可分．因此，迭代计算过程具有很好的健壮性，在迭代循环的迭代过程中迭代变量产生一些误差，模型的最终收敛也不受影响．现实迭代算法中的迭代矩阵ｉＷ通常由概率组成，因此可以得到在海量数据的迭代处理过程中，￥— ０．由上述迭代计算的收敛性分析可知，基于补偿函数的乐观的容错机制具有一致性的收敛状态．乐观容错恢复的原理图如图６所示．在第二次迭代过程中ｎｏｄｅ３上发生故障，通过补偿函数对健康节点ｎｏｄｅｌ和ｎ〇ｄｅ２上的数据进行收集，并结合初始的ｎｏｄｅｌｎｏｄｅ２ｎｏｄｅ３ ｎｏｄｅ４图６乐观容错恢复原理图郭文鹏等：面向Ｆｌｉｎｋ迭１１期 代计算的高效容错处理技术 ２１０ ７完整数据对丢失的数据进行补偿恢复得到新的迭代数据，继续执行迭代计算．迭代计算的收敛性特点确保了结果总是朝着正确的方向无限逼近，乐观容错机制使用该特点，在发生故障时，通过补偿丢失数据的近似值作为新的变量继续迭代，保证了大规模分布式迭代计算结果的正确性．４．２基于乐观容错机制的全量迭代算法本节主要基于分布式全量迭代算法实现基于补偿函数的乐观容错机制，以典型的ＰａｇｅＲａｎｋ算法为例，ＰａｇｅＲａｎｋ算法的介绍详见文献［２－３］．本节进一步基于Ｍｉｎｋ系统设计和实现了具有乐观容错机制的ＰａｇｅＲａｎｋ算法．本节以图７所示的网页链接为例，介绍基于补偿函数乐观容错机制的ＰａｇｅＲａｎｋ算法的设计与实现．当前网络中共有Ａ，Ｂ，Ｃ，Ｄ，￡，Ｆ共５个网页，使用有向图Ｇ＝（Ｖ，￡）表示该网络．若网页Ａ包含一个到Ｂ网页的链接，则会有一条边（Ａ，Ｂ）．网页中顶点集合＾＝｛八，５，（：，０，￡：｝，网页中边集合￡：＝｛（Ａ，Ｂ），（Ａ，Ｃ），（Ａ，Ｄ），（Ａ，Ｅ），（Ｂ，Ａ），（Ｂ，Ｄ），（Ｂ，Ｆ），（Ｃ，Ａ），（Ｃ，Ｆ）ＡＤ，Ｂ）ＡＤ，Ｃ）ＡＤ，Ｅ），（Ｄ，Ｆ），（￡，Ｃ），（Ｆ，Ｅ）｝．图７网页链接示例图如果一个网页有ｘ个链出网页，则该从网页跳转这：Ｔ个网页的概率都为１／Ｘ，该网页贡献给其跳转网页心吨／ｘ，．例如网页Ａ包含４个跳转链接，则从Ａ网页跳转到网页Ｂ、Ｃ、Ｄ、￡的概率为均为１／４，由此可以推出一个网络内网页互相跳转的概率矩阵表示从网页ｆ跳转到网页ｊ的概率．ｆｌ／ｘｉ，（．ｊ ，ｉ） ６ＥＭｕｊ＝（７）ｌＯ，〇，０￥Ｅ使用概率矩阵Ｍ表示图７中网络中各网页之间的跳转概率可以表示为Ｍ＝０ １／３ １／２ ０ ０ ０１／４ ０ ０ １／４ ０ ０１／４ ０ ０ １／４ １ ０１／４ １／３ ０ ０ ０ ０１／４ ０ ０ １／４ ０ １０ １／３ １／２ １／４ ０ ０，由于网络中可能会出现这样一些网页，它们除了本身之外没有其它的出链，或者几个网页构成的循环圈，这样会导致这个或这些网页的Ｒａｎｋ值只增不减，为了规避这种情况，ＰａｇｅＲａｎｋ算法引人了一个阻尼因子ａ，假定用户会有ａ的概率通过网页之间的链接去访问网络中的其它网页，有（１一ａ）的概率通过直接输人浏览器地址访问．ＰａｇｅＲａｎｋ值的计算公式为叫）＝１＾＋？２微（８）其中Ｐｉ？ （／＞，）表示网页Ｚ＇的Ｒａｎｋ值，Ｌ（九）表示网页＿；＿的链出网页数．在实际应用中，阻尼因子ａ — 般取为０． ８５．而在多次迭代过程中一般很难达到精确结果，所以一般取两轮迭代的无穷范数作为收敛精度，当相邻两轮迭代变量Ｒａｎｋ之间的绝对值之差小于给定的阈值或满足最大迭代次数时，迭代终止．记每第ｉ轮迭代的Ｒａｎｋ值为记＇以图７网络拓扑为例，每个网页初始的Ｒａｎｋ值可以表示为１？（０＞＝｛１／６，１／６，１／６，１／６，１／６，１／６｝Ｔ，经历１０次迭代网页Ｒａｎｋ值变化如图８所示．ｒＯ．  １６６６６７＇］ 〔０．  １４３０５６］ｒＯ． １５３０９０＇ｊ０．１６６６６７ ０．  ０９５ ８３３ ０． ０７８ ２７３０．１６６６６７＞ ＝＞ ＜０．  ２３７ ５００ ０？ １５９７３１０．１６６ ６６７ ０． １０７ ６３９ ０． ２８２ ５５２０． １６６ ６６７ ０． ０９５８３３ ０． ２２９ ９７４０． １６６６６７． ．０． １７８４７２． ．０． １７５ ９６４．（０） （１） （２）ｒ０． １１５０６３＇ｊｒＯ． １６１２５６＾ｒＯ． １５３１７８＇｜０．０７５０７４ ０．０６６３８９ ０． ０７４ ２９５０．２７０５５２＞＝＞ ＜０． ２５７３３６ ０． ２２６ ５３３０．０７９７０９ ０． ０７０７２２ ０．０７８０７７０． ２２４ ６４３ ０． １７９１０３ ０？ ２２５７６０．０． １３２ ６０５， ．０． １７８１９４．．０． １６８ ２０６＞（３） （４） （５）（０． １４２３２７］ｒＯ．  １５９０７３ ｒＯ． １５４３９６＇ｊ０．０７４１４２ ０． ０７１９４７ ０．０７５ ００６０． ２６６０３７＞ ＝＞ ＜０． ２５６４９６ ０． ２５０９８００．０７８６０１ ０．  ０７６２５１ ０．０７９１８８０．２１７１１７ ０．２０７０２８ ０． ２２４４１５－０． １５８９１８． ．０．  １７５ ７７５． ．０． １７０５９９．〔０？ １５２９１８〕（７）ｒＯ． １５８９３８＇）０． ０７４ ６３７ ０． ０７４ ２９６０． ２６５ ３９０ ０． ２６０ ９９５０． ０７９０６１ ０．０７８ ６４２０． ２１９６４６ ０．２１８５７９．０． １６９７４６－ ，０． １７５ ７３８．（９） （１０）图８ＰａｇｅＲａｎｋ迭代Ｒａｎｋ值变化图由图８可得，在第１０次迭代后，Ｒａｎｋ值变为＜０．１５８  ９３８，０．０７４２９６，０．２６０ ９９５，０．０７８ ６４２，０．２１８５７９，２１０８ 计算机学报 ２０２０年０．１７５ ７３８｝Ｔ．经计算可得，在第１６次迭代时，其Ｒａｎｋ值的收敛精度达到了１〇＿３，Ｒａｎｋ值收敛为｛０．１６０ ３２９，０．０７５９５８，０．２６７５０９，０．０８０３８６，０．２２６０５６，０．１７７ ３８７｝Ｔ．假设在某次迭代过程中，导致分区数据丢失，可以设计补偿函数统计当前丢失的数据Ｒａｎｋ值个数为《以及丢失的总概率为为丢失的网页补偿一个相同的Ｒａｎｋ值／？／？，然后和未丢失的数据一起继续执行迭代任务．以图７中的网络拓扑为例，假设在第４迭代，集群中的计算节点ｎｏｄｅｌ发生故障，并且ｎｏｄｅｌ上保存的是顶点Ｓ和Ｃ的数据．在发生故障后，对丢失的数据进行补偿恢复，得到新一轮迭代的输入．迭代过程中网页的Ｒａｎｋ值变化如图９所示．ｒ０．  １６６ ６６７＇０． １４３０５６ ０．  １５３０９０＇０．  １６６ ６６７ ０．０９５ ８３３ ０．  ０７８２７３０．  １６６６６７ ０．２３７５００ ０－  １５９７３１０．  １６６ ６６７＞—＾＊０． １０７６３９＞＝＞０．  ２８２５５２０． １６６ ６６７ ０．０９５８３３ ０．  ２２９ ９７４．０．  １６６ ６６７． ，０． １７８４７２， ，０． １７５９６４，（０） （１） （２）＾０．１１５０６３＇０． １６１２５６ ０．１６１２５６＇０． ０７５０７４ ０．０６６ ３８９ ０． ０６６３８９０． ２７０５５２０． ０７９７０９＞ ■＝＞＊ ＞＝＞＾０．１６４０２９０． １６４０２９０．２２４ ６４３ ０． １７９１０３ ０．１７９１０３．０．  １３２ ６０５．．０． １７８１９４， ．０．１７８１９４」（３） （４） （４，）＇０．  １１３５２３ ０． １５６ ３７１＇０．１６０２６７＇０． ０９４１２３ ０． ０６５ ７１５ ０． ０７４３３５０． ２４６ ３６１ ０．２７４ ４６５ ０． ２３７３９６０． ０７８０７７＞＝＞？＜０．０７５ ７９２＞－＜０． ０７６ ８４８０． ２４５ ５８８ ０． １９１８３７ ０． ２２１３５３．０．  １４８３７９． ．０． １７２ ９６３， ．０．１７６３７２．（５） （６） （７）？０． １４６９５５＇０． １５８３６３ Ｕ１５８２７８，０．０７５ ３８７ ０．０７３ ２５３ ０． ０７５１３９０＿  ２６３ ５３７ ０．２６４ ７６１ ０． ２５５ ３７８０． ０８０１１８ ０．０７７５８８＞？＜０． ０７９４０７０．２２５ ３０４ ０．２１２０４５ ０． ２２４２１９．０．  １６３２８５． ．０．１７５３８８， ．０．１７４ ７６６，（８） （９） （１０）图９ＰａｇｅＲａｎｋ补偿后Ｒａｎｋ值变化图由图９可以看出第４次迭代，节点ｎｏｄｅｌ出现故障后对节点Ｂ、Ｃ的Ｒａｎｋ值补偿为０． １６４０２９，再次经过６次迭代后得到的Ｒａｎｋ值与图８的正确Ｒａｎｋ值比较接近，且在补偿后迭代执行在第１４次时，其Ｒａｎｋ值收敛精度达到１（Ｔ３，  Ｒａｎｋ值收敛为｛０．１６０ ８３７，０．０７６１４４，０． ２６８ ７４９，０．０８０ ５８９，０． ２２６ ７８５，０？  １７７９５６｝丁．采用本文提出的乐观补偿函数对丢失的网页恢复并继续迭代得到的网页排名与无故障迭代计算得到的结果一致．ＰａｇｅＲａｎｋ算法对应的补偿函数具体执行过程如算法１所示．算法１．ＰａｇｅＲａｎｋ全量迭代算法补偿函数．输人：顶点集合Ｖ，当前迭代变量输出：对故障节点丢失数据补偿后的新迭代变量１．ＳｕｍＲａｎｋ—ｓｕｎＫｉ＾ｎ）／／统计健康节点 Ｒａｎｋ值２．ＬｏｓｔＮｕｍ—ｃｏｕｎｔＣＶＯ— ｃｏｕｎｔＣｉ？１＊１）／／计算丢失的顶点数量３．ＣｏｍｐｅｎｓａｔｉｏｎＲａｎｋ＜－（ １ —ＳｕｍＲａｎｋ）／ＬｏｓｔＮｕｍ４．／／对丢失顶点的Ｒａｎｋ值进行补偿５．ＦＯＲｅａｃｈ认ｉｎＶ７／遍历节点上的顶点６．如果未丢失７．ａｄｄ广ｔｏ ｉｄ／／直接加人到８．ｅｌｓｅ／／如果丢失９．ａｄｄＣｏｍｐｅｎｓａｔｉｏｎＲａｎｋｔｏ１０． ／／将丢失补偿后的Ｒａｎｋ加入到Ｊ？：二４．３基于乐观容错机制的増量迭代算法本节主要基于分布式增量迭代算法实现基于补偿函数的乐观迭代容错机制，使用典型的Ｃｏｎｎｅｃｔｅｄ－Ｃｏｍｐｏｎｅｎｔｓ增量迭代算法为例展开介绍． Ｃｏｎｎｅｃｔｅｄ－Ｃｏｍｐｏｎｅｎｔｓ 算法第３部分已经介绍；本节进一步基于Ｆｌｉｎｋ系统实现了基于乐观容错机制的Ｃｏｎｎｅｃｔｅｄ－Ｃｏｍｐｏｎｅｎｔｓ 算法？本节以图１０所示的连通图为例，以具体实例介绍了基于乐观容错机制的ＣｏｎｎｅｃｔｅｄＣｏｍｐｏｎｅｎｔｓ算法的设计与实现．图１０ＣｏｎｎｅｃｔｅｄＣｏｍｐｏｎｅｎｔｓ算法示例图假设当前共有Ｉｄ为１？１５的１５个顶点组成的图．如图７所示为顶点之间的连通关系．记顶点的分类值为Ｃｌｄ，初始时所有顶点的Ｃｉｄ＝ＩＤ．使用ＣｏｎｎｅｃｔｅｄＣｏｍｐｏｎｅｎｔｓ算法对图１０中的顶点数据进行迭代，则每个顶点在迭代过程中对应的Ｃｉｄ值变化如图１１所示．在经历第５次迭代后，每个顶点的Ｃｉｄ值不再更新，迭代结束．Ｃｏｎｎｅｃｔｅｄ－Ｃｏｍｐｏｎｅｎｔｓ算法属于增量迭代，当某个顶点在本轮迭代过程中，其Ｃｉｄ值没有发生变化，代表该顶点的Ｃｉｄ值已经是其所在的连通子图中所有顶点中的最小Ｉｄ值．故在下次迭代时可以忽略该顶点．在迭代过程中，若集群中某节点生故障而导致部分数据郭文鹏等：面向Ｆｌｉｎｋ迭１１期 代计算的高效容错处理技术 ２１０９丢失时，使用补偿函数将丢失的顶点补偿顶点的初始值，该节点周围的节点可能已收敛到最终的结果．故对于丢失的节点只需要经历较少的收敛次数即可再次得到最终收敛的结果．图１１ＣｏｎｎｅｃｔｅｄＣｏｍｐｏｎｅｎｔｓ迭代Ｃｉｄ值变化图以图１１为例，假如在第３次迭代时，某台节点ｎｏｄｅ２发生故障，ｎｏｄｅ２上存放的顶点有３，６，９？在发生故障后，对丢失的数据进行补偿恢复，得到新一轮迭代的输人．继续执行迭代的过程如图１２所示．经过补偿后的顶点同在第５次迭代收敛，且结果一致．图１２ＣｏｎｎｅｃｔｅｄＣｏｍｐｏｎｅｎｔｓ补偿后Ｃｉｄ值变化图基于ＣｏｎｎｅｃｔｅｄＣｏｍｐｏｎｅｎｔｓ的补偿函数的具体执行过程如算法２所示．算法２．ＣｏｎｎｅｃｔｅｄＣｏｍｐｏｎｅｎｔｓ增量迭代算法补偿函数．输人：顶点集合Ｖ，当前迭代变量ＣＷ＜４＞输出：对故障节点丢失数据补偿后的新迭代变量ｃｗ＝１．ＦＯＲ ｅａｃｈ Ｗ，ｉｎＶ／／遍历节点上的顶点２．ｉｆ ｔ；，ｉｎＣＷｕＶ／如果未丢失３． ａｄｄＣＷ：４＞ｔｏＣＷ＝／／直接加人到４．ｅｌｓｅ／／如果未丢失５． ａｄｄｔｏＣＷ＝／／直接加人到６．／／将丢失的顶点的Ｉｄ作为补偿值，并加人本文基于Ｆｌｉｎｋ系统实现了全量迭代算法的乐观补偿容错机制，现有的分布式系统没有新增乐观容错机制的原因之一在于补偿函数需要完全由用户定义和实现．本文实现的乐观补偿函数容错机制为用户提供了补偿函数接口，该接口中定义了抽象的收集数据方法并将初始数据集作为参数传人该方法，便于用户直接使用．执行过程中发生故障时，主节点ＪｏｂＭａｎａｇｅｒ会通过心跳信息监测到具体发生故障的ＴａｓｋＭａｎａｇｅｒ．此时会判断用户是否编写了补偿函数，如果有，则会触发收集数据的操作，在ＥｘｅｃｕｔｉｏｎＧｒａｐｈ中向分配了任务的健康节点发出收集数据的消息．ＴａｓｋＭａｎａｇｅｒ收到消息后，会根据迭代任务的类型来收集数据，如果是全量迭代则会在ＩｔｅｒａｔｉｏｎｌｎｔｅｒｍｅｄｉａｔｅＴａｓｋ中收集数据？如果是增量迭代，则会在其ＩｔｅｒａｔｉｏｎＨｅａｄＴａｓｋ中收集数据．数据收集完成后，调用用户编写的补偿函数，对丢失的数据进行恢复．将恢复得到的数据作为新的迭代输人继续执行．５基于头尾检查点的悲观容错机制如前所述，现有分布式计算系统迭代容错效率低，采用的悲观检查点机制时以阻塞的方式写人外部存储？额外开销大，没有针对迭代计算的特点制定特定的容错机制．本节提出了一种基于头尾检查点的悲观容错机制，该机制以一种不受阻塞的方式编写检查点，将可变的数据集输人迭代数据流，降低了检查点成本和故障恢复开销．进一步基于Ｆｌｉｎｋ系统实现了头尾检查点机制．本节首先介绍了Ｆｌｉｎｋ系统中的迭代模型．其次介绍并分析了阻塞检查点和非阻塞检查点的代价开销．最后提出了尾部检查点和头部检查点机制并进行了代价开销分析．５．１Ｆｌｉｎｋ系统中的迭代模型本节以Ｆｌｉｎｋ系统迭代处理图算法为例．介绍了Ｆｌｉｎｋ系统的迭代模型．对于顶点数据集，使用表示顶点Ｗ，表示顶点的迭代变量值．对于边数据集使用表示源顶点，表示目标顶点．表示边的权重（该值是可选的）．通常对于图迭代计算问题，一般表示为顶２１１０计算机学报２０２０年点为其它顶点生成消息，并在每个超级步中接收消息更新其值．使用关系运算符．这类迭代计算表示为ｙ（ｍ）ｙ （Ｖ＜－＞）ｍＥ）（９）其中，是当前顶点的值，Ｅ是边．首先顶点为其他顶点产生消息，即ＭＥ．然后，顶点收集消息以及当前值Ｕ（Ｗｌｘｆ：．最后，使用步函数／来更新顶点的值．图１３显示了数据流系统中图迭代的通用编程框架．要在数据流系统中执行图算法，输人数据常从外部存储（ＨＤＦＳ）加载以构建狀数据集，而数据集由用户指定的初始值根据应用程序构建．迭代运算符用于将新生成的顶点集Ｖａｆｅ，替换上一次迭代的顶点集这里将和Ｖｅ＂ｅ＿ｒ＇称为迭代数据集．在ｊｏｉｎ阶段期间，￡＃ｅ和Ｖｅｒｋｉ数据集彼此连接以生成中间数据集，即在顶点之间交换的信息．这里连接运算符伴随用户自定义的函数以产生有效的值．例如，指定用户定义的连接函数，使其与Ｆｌｉｎｋ中的ｊｏｉｎ运算符相关联，而通过在Ｓｐａｒｋ中的ｊｏｉｎ之后应用ｍａｐ函数来实现．在ｇｒｏｕｐＢｙ阶段，中间数据集由ｇｒｏｕｐＢｙ运算符应用，该运算符按目标顶点对数据进行分组以构造每个顶点的邻域．在聚合阶段，用户定义的聚合函数应用于Ｖｅｄｅｘ数据集和其邻居数据集的并集，以便计算正在处理的顶点的新值．但是ｕｎｉｏｎ运算符是可选的，因为在某些应用程序中，顶点的值仅依赖于它的邻居．其中Ｊｏｉｎ阶段对应了式（１）中的Ｖ＾；＞Ｍ￡，Ｇｒｏｕｐ阶段对应了Ｕ（Ｖ（＂）ＭＥ，Ａｇｇｒｅｇａｔｉｏｎ阶段对应了Ｕ（Ｖ（；＞）ｔｘｆ：）．＜ｗ＞／Ｖｅｒｔｅｘ／＿ ／Ｖｅｒｔｅｘ＇／／Ｊｏｉｎ阶律ＧｒｏｕｐＢｙ阶學＼Ａｇｇｒｅｇａｔｉｏｎ阶 段、＇（Ｊｏｉｊ）－？／消息／邻居邻居＋／？＾ｒｅｇａｔｉｏｉｊｊ图１３图迭代处理通用编程框架通常，迭代输人经过每个超级步的转换后，得到的输出在迭代算法的执行过程期间作为下一个超级步的输人．因此，在下一轮迭代过程中，Ｖ〃＾ｒ＇数据集将替换原有的Ｖｅｒｔｅｘ，替换过程通过反向通道来完成．其中，系统的迭代数据流的执行过程如图１４所示．反向通道操作符？｛操作符｝迭代头迭代尾图１４迭代数据流５．２阻塞检查点与非阻塞检查点在阻塞运算符模型［２６］中，每个运算符在任何下游运算符开始使用结果之前生成其完整结果．该模型简化了检查点策略的实施，并被ＤｒｙａｃＰ＇Ｍａｈｏｍ和Ｐｒｅｇｅｌｉｘ等系统广泛采用．遵循此原则，为了编写检查点，在开始下一个超级步之前保存迭代数据集．在迭代数据流中，检查点可以通过反向通道写入，如图１４所示．我们假设该集群中所有的节点工作均匀，并且工作负载在所有节点之间完美平衡．然后，阻塞检查点的开销Ｑ，如下：Ｄ＇〇ｉ， ＝—（１０）ｎｖ其中Ｄ＇是在超级步ｉ结束之后且在超级步；＋１之前的检查点的数据大小ｍ是集群中节点的数量〇是每个节点使用的外部存储系统的写人速率．阻塞运算符模型极大简化了容错任务，因为它可以防止下游任务消耗其上游输出的一部分数据而导致其余部分发生故障变得不可用的情况［２ ° ］．但是此阻塞模型通常会增加执行延迟，如例１所示．这种高延迟的原因是只有当迭代数据集完全可用时才会与入检查点，并且在完成检查点后，后续的超级步才可以启动计算．例１．假设图迭代处理算法在由１〇个节点上组成的集群上运行．另外，迭代数据集的数据量即检查点的大小为１０ＧＢ，并且每个节点上的ＨＤＦＳ的写人速率是５０ＭＢ／Ｓ．根据式（１２）可知，在阻塞运算符模型中写入检查点的额外开销是２０．  ４８ｓ．如果一次迭代任务没有任何检查点的超级步的执行时间为２ｍｉｎ，那么检查点额外开销所花费的占比为１４．６％．Ｆｌｉｎｋ系统实现的检查点容错机制，虽然不会以无阻塞的方式破坏迭代管道．但它忽略了迭代控制，并使系统设计复杂化，需要额外的组件来协调故障恢复的检查点，特别是对于迭代图算法．此外，节点上的磁盘故障是本地实现策略的灾难，因为故障磁盘上的数据将完全丢失，并且后向重新计算可能是耗时的．郭文鹏等：面向Ｆｌｉｎｋ迭１１期 代计算的高效容错处理技术 ２１１ １５．３尾部检查点与头部塞检查点本节提出的检查点机制，通过在数据流执行过程中将检查点写人到外部存储，与迭代无关的阻塞检查点不同，该机制在数据流中，可以感知迭代．编写检查点将可变迭代数据集保存到外部存储是一项特俗任务，该检查点的写入隐含地包含在流水线执行中．它不仅在不破坏流水线任务的情况下继承了低延迟的优势，而且只有在当前迭代中的检查点完成后，迭代协调器才能启动下一次迭代，此外，ＨＤＦＳ等外部存储为容错提供了高可用和可靠性．对于尾部检查点，如图１５（ａ）所示，检查点的写人与数据集的生成同步进行，在超级步的尾部写人外部存储．即超级步尾部数据流速为因为是以流水线的方式生成的．如果产生的流速大于写人外部存储器的最高速率Ｖ，即ｗ＞切．则可以在没有任何运行时间开销的情况下写人检查点．否则，数据被累积，进程等待写人外部存储完全写入需要的开销为在此期ｎｖ，Ｄ＇７）间，已写人的数据量为因此，待写人的数据量ｎｖ，为丄「Ｄ。。— 将剩余数据写人磁盘所ｎＬ」需的时间是额外的开销．给定写人速率％尾部检查点的开销ＯＵ为Ｏｕｂ ＝＼Ｄ，：、｛ｖｔ—ｖ）ｎｖｖ，Ｖ ＜，Ｖｔ（１１）ｖ＞ｖ，例２？在例１的基础上，如果用于生成Ｖｅｒｔｅｘ＇数据集的流水线速率是６０ＭＢ／ｓ．则根据式（１１）可以计算得，尾部检查点的开销是３． ４１ｓ．对于头部检查点，如图１５（ｂ）所示，检查点的写入与Ｖｅｒｔｅｏ？数据集的完成同步进行．由于Ｖｅｒｆｅｘ数据集由管道中的下游节点使用．如果检查点的写人速率ｕ大于超级步头部的流水线速率％．即则可以在没有任何运行时开销的情况下完成检查点的写人．如果＾＜叫，则在消耗完整个Ｖｅ７＾：ｒ数据集之后还存在剩余数据，剩余的数据量为Ｄ＇，写人该数据的开销为但是如果此时间小于超级步ｉ的正常执行时间〖，，即，则仍然没有运行时开销，因为将数ｎｖｖｈ据写人外部存储和下游操作符的处理是并行完成的．否则，迭代协调器需要等待写人外部存储才能完成，以便继续执行下一个超级步．在这种情况下，时间导致运行时开销．然而，需要考虑头部检查点的干扰次ａ＜ａ，），这可能会延迟作业的运行时间，因为它仍然占用计算或存储资源．头部检查点的开销〇Ｌ近似为ｎｖｖｈｎｖｖｈｌ〇， 其他（１２）反向通道操作符Ｙ… 操作符下迭代头迭代尾（ｂ）头部检查点图１５尾部检查点和头部检査点例３显示了头部检查点将检查点写人操作和每个超级步骤的图形计算并行化，以便显着减少检查点的运行时开销．例３．在例１的基础上，如果使用Ｖｅｄａ数据集的流水线流的速率是６０ ＭＢ／Ｓ，则根据等式（１２），尾部检查点的开销是〇．根据前面对阻塞检查点和头尾检查点的代价分析，我们可以推理出以下定理．定理１．无阻塞检查点的开销不高于阻塞检查点的开销．证明．分别对比尾部检查点和阻塞检查点，头部检查点和阻塞检查点的开销．尾部检查点与阻塞检查点开销对比：如果” ＜％，那么＾＾＜１，因此Ｖ，（Ｘ，＝Ｄ：’二（巧―并且 〇，，〉〇．因此〇ｕ＜ｎｖｖｔｎｖ当时，？头部检查点与阻塞检查ｎ（，）点对比：如果Ｋ＂＞？，＿次，那么，＝ｎｖｖ／，Ｄ（，） ｉｖｈ ＿ｖ）ｎｖｖｈ－Ｚｉ＋ｄｉ＜＾ＵＬ＾）＜Ｄ＾＝ａ＿此外ｎｖｖ／，ｎｖ〇＇：？＝〇并且〇？＞〇，因此２１１２ 计算机学报 ２０２０ 年综上所述，由和０＾＜Ｑ，可知，阻塞检查点模型开销高于非阻塞检查点．定理２．若超级步简化为恒定速率的管道，即叫＝％，则头部检查点开销不高于尾部检查点．ｎ（／） （７１ ＿７，＾证明．如果１；＜叫且一ｖＡ那么〇丨：？＝ｎｖｖｈＤｕ＼ｖｈ—ｙ）＾＋ 汐＾．Ｄ（，＞ （ｖ，—ｙ）ｎｖｖｈ＇＇ｎｖｖ，〇Ｌ？．否则，ｄ＝〇并且 〇ｕ＞〇．因此 〇Ｋ〇：，？．定理１表明流水线数据流系统应采用无阻塞模型来保存迭代数据集以进行图形处理．定理２表明，在超级步的头部检查用于图处理的迭代数据集可能导致低开销．在某些情况下，头部检查点没有开销（如例２和例３），而尾部检查点会产生显着的成本．６实验分析对于本文提出的两种容错机制，在Ｆｌｉｎｋ系统上进行了实现，通过修改Ｍｉｎｋ底层源码，提供了用户可以直接使用的补偿函数接口和可设置的头尾检查点参数．通过在源码中增加一些ｋｉｌｌ计算节点的方法，模拟了计算节点出现故障．使用优化的容错机制与Ｆｌｉｎｋ系统原有的容错机制在故障发生后任务恢复耗费的的迭代次数和时间进行了对比与分析，分别采用全量迭代ＰａｇｅＲａｎｋ算法和增量迭代ＣｏｎｎｅｃｔｅｄＣｏｍｐｏｎｅｎｔｓ算法在不同规模的数据集上进行了实验．６．１数据集本文针对ＰａｇｅＲａｎｋ算法和Ｃｏｍｐｏｎｅｎｔｓ算法采用了两类数据集．分别是真实数据集和模拟数据集，真实数据集ｇｅｍｓｅｃ－Ｆａｃｅｂｏｏｋ是斯坦福大学２０１７年１１月收集的有关ＦａｃｅＢｏｏｋ页面的数据；ｗｉｋｉ－ｔｏｐｃａｔｓ是斯坦福大学２０１１年９月收集的维基百科的超链接网络图；Ｈｏｌｌｉｎｓ数据集是霍林斯大学教育网的网页链接关系数据；ａｓ－Ｓｋｉｔｔｅｒ数据集为Ｉｎｔｅｒｎｅｔ 拓扑，包含ｈｔｔｐ：／／ｗｗｗ． ｃａｉｄａ． ｏｒｇ／ｔｏｏｌｓ／ｍｅａｓｕｒｅｍｅｎｔ／ｓｋｉｔｔｅｒ网站２００５年每天运行的网页链接关系．ｃｉｔ－Ｐａｔｅｍｓ数据集为国家经济研究局维护的美国专利数据集，涵盖了１９６３年至１９９９年的专利及引用数据．ｗｅｂ－Ｇｏｏｇｌｅ数据集为谷歌网页数据．真实数据集主要用于全量迭代ＰａｇｅＲａｎｋ算法实验分析．模拟数据集ｄａｔａｓｅｔｌ－３是在实验时随机生成的具有较多连通分量的图数据集．其主要用于ＣｏｎｎｅｃｔｅｄＣｏｍｐｏｎｅｎｔｓ算法，因为在执行该算法时，收敛较快，故随机生成了规模较大的连通图数据集．详细信息如表１所示．表１ 实验环境配置配置 参数机器节点数量 １主节点，６从节点内存 ３２ＧＢＸ６操作系统 ＣｅｎｔＯｓ７ＪＤＫ版本 １．８． ０＿１９１开发环境 ＩｎｔｅｌｌｉＪＩＤＥＡＦｌｉｎｋ版本 １．４．２Ｈａｄｏｏｐ版本 ２． ７． ３６．２实验环境设置本文采用的全量迭代算法ＰａｇｅＲａｎｋ和增量迭代算法Ｃｏｍｐｏｎｅｎｔｓ基于Ｆｌｉｎｋｌ． ４．２实现，本文对底层源码进行了修改，新增了迭代任务的乐观恢复容错功能．并采用ｊａｖａ语言编写具有乐观恢复容错机制的ＰａｇｅＲａｎｋ算法和Ｃｏｍｐｏｎｅｎｔｓ算法的案例与未优化的Ｈｉｎｋ进行了实验对比．实验分析的环境设置和使用的数据集如表１和表２所示．表２ 数据集数据集 Ｎｏｄｅｓ Ｅｄｇｅｓｇｅｍｓｅｃ－Ｆａｃｅｂｏｏｋ－２８－ ５０５１５ ８１９３０６ｗｉｋｉ－ｔｏｐｃａｔｓ１２９－１７９１４８９ ２８５１１８０７Ｈｏｌｌｉｎｓ：３０］ ６０１２ ２３ ８７５ａｓ－Ｓｋｉｔｔｅｒ－３１－１６９６４１５ １１０９５２９８ｃｉｔ－Ｐａｔｅｎｔｓ－］２」３７７４ ７６８ １６５１８９４８ｗｅｂ－ＧｏｏｇｌｅＬＳ３］ ８７５ ７１３ ５１０５０３９ｄａｔａｓｅｔ－１ ２０２０ ４０ ０００ｄａｔａｓｅｔ－２ ５００１２２ ５０００１２１ｄａｔａｓｅｔ－３ １０００００００ １２００００００６．３实验结果与分析本文通过修改Ｆｌｉｎｋｌ． ４．  ２的源码，新增了补偿函数接口．新增参数来设置在指定的迭代次数ｋｉｌｌ节点，模拟故障的发生．乐观容错机制与Ｆｌｉｎｋｌ． ４． ２原有的重启恢复容错机制在正确性、运行时间、故障发生后恢复所用的迭代次数上进行了分析．在不同规模的数据集上展示的实验效果表明，网络中顶点之间的边数越多，对于全量迭代算法来说，收敛速度越慢．对于全量迭代算法来说，收敛速度越快．（１）正确性评估基于乐观容错机制全量迭代算法ＰａｇｅＲａｎｋ通过使用表１中的小数据集（Ｈｏｌｌｉｎｓ）和大数据集（ｗｉｋｉ－ｔｏｐｃａｔｓ）在分布式集群上运行？ ＰａｇｅＲａｎｋ算法迭代收敛的阈值？取Ｖ（１〇〇ＸＡ〇的小数单位，ＪＶ为网页总数．在所有实验中，模拟故障发生时丢失的节点上的数据量为１／２０．为了充分验证算法的正确１１期 郭文鹏等：面向Ｆｌｉｎｋ迭代计笕的高效容错处理技术 ２１１３５１０２０３０４０发生故障时的迭代进度（ｃ） ｗｉｋｉ－ｔｏｐｃａｔｓ（总迭代次数６４）图１７ＰａｇｅＲａｎｋ算法恢复迭代次数比较１０２０３０４０发生故障时的迭代进度（ｂ） ｆａｃｅｂｏｏｋ  ａｒｔｉｓｔ（总迭代次数５０）９３９２１０ ２０３０４０迭代乐观恢复机制的正确性５０（ｂ） ｗｉｋｉ－ｔｏｐｃａｔｓ图１６迭代乐观复制机制的正确性图１６（ａ）为小型数据集Ｈｏｌｌｉｎｓ的实验效果，图１６（ｂ）为大型数据集ｗｉｋｉ－ｔｏｐｃａｔｓ的实验效果．基于乐观容错机制的ＣｏｎｎｅｃｔｅｄＣｏｍｐｏｎｅｎｔｓ增量迭代算法的乐观恢复在发生故障时，补偿恢复得到的结果和正常迭代得到的最终结果完全一致．由图１６可以得出，由于ＰａｇｅＲａｎｋ算法得到的最终结果是近似值，故对于ＰａｇｅＲａｎｋ算法实验的结果和原执行结果在同一收敛度且结果相差不超过５％，可以认为两种结果均正确．连通分量算法则完全保证了一致性结果即正确率为１００％．因此，补偿函数得到的最终结果是正确的．此外，通过使用不同规模的数据集进行实验，发现对于网络顶点数量较多的顶点，性（和正常迭代结果的重复率），对不同数据集的总迭代次数（Ｈｏｌｌｉｎｓ：１４２次，ｗｉｋｉ－ｔｏｐｃａｔｓ：６４次）按不同的迭代间隔触发节点ｓｉ发生故障，并采用乐观的容错机制进行恢复．将得到的最终结果与正常迭代的结果进行对比，由于ＰａｇｅＲａｎｋ算法结果本身就是近似值，故两次迭代排名误差小于１０的网页认为排名正确．小数据集结果的正确性和大数据集的正确性分别如图１６所示．９２１０２０４０８０迭代乐观恢复机制的正确性（ａ） Ｈｏｌｌｉｎｓ１２０收敛速度越快．（２）恢复性能评估基于乐观容错机制全量迭代算法ＰａｇｅＲａｎｋ和增量迭代算法ＣｏｎｎｅｃｔｅｄＣｏｍｐｏｎｅｎｔｓ算法在模拟故障发生时，恢复任务需要继续迭代至收敛．依然采用正确性评估中的实验条件，使用表２的真实数据数据集和模拟数据集进行实验，针对不同规模数据集的迭代次数可以观察出优化后的Ｆｌｉｎｋ恢复后执行的迭代次数均少于Ｆｌｉｎｋ原有的迭代次数．基于补偿函数的乐观容错机制在ＰａｇｅＲａｎｋ算法和ＣｏｎｎｅｃｔｅｄＣｏｍｐｏｎｅｎｔｓ算法上的迭代次数提升效果分别如图１７和图１８所示．实验结果表明，在迭代次数上，乐观容错机制故障恢复后比原有的Ｆｌｉｎｋ容Ｌ００９９９８ｉ１０２０３０发生故障时的迭代进度（ａＨａｃｅｂｏｏｋ  ａｔｈｌｅｔｅｓ （总迭代次数４６）４０｜ Ｂ优化后的Ｆｌｉｎｋ Ｓ未优化的｜Ｈ优化后的Ｆｌｉｎｋ Ｓ未优化的Ｆｌｉｎｋ｜０ ＰａｇｅＲａｎｋ算法结果正确＿ＮＣｏｎｎｅｃｔｅｄ Ｃｏｍｐｏｎｅｎｔｓ算法正确率０ＰａｇｅＲａｎｋ结果正确率ＳＣｏｎｎｅｃｔｅｄ  ｃｏｍｐｏｎｅｎｔｓ结果正确率ＩＫＩＫＩＩ１ＩＩｏｏｏｏｏ５４３２１＾名＾３劫『＞１５１２鉍＾１％／齋蓉３１０８６０９９％／＃蓉ＨＩ＞型Ｓ２？ｗ＾ｌ＜／／／／／／？／／／？§§§§§§８８８ｓｓｓｓｓｓｓｓｓ８０８ｓ§§§§§§§§§§§§§§§００§§§§１０３０５０７０９０１００发生故障时的迭代进度（ａ） ｄａｔａｓｅｔ １ （总迭代次数１０１）表３和表４分别列举了乐观迭代容错优机制和悲观迭代容错优化机制的具体实验条件以及提升的百分比．基于头尾检查点的容错机制在故障发生的不同阶段时间开销不同．此外，不同的硬件环境下，〇１０２０３０４０发生故障时的迭代进度（ｃ） ｗｉｋ卜ｔｏｐｃａｔｓ（总迭代次数６４）图１９ＰａｇｅＲａｎｋ算法运行时间比较５１０２０３０４０发生故障时的迭代进度（ｂ）ｆａｃｅｂｏｏｋ＿ａｒｔｉｓｔ（总迭代次数５０）７００１０ ３０５０７０９０发生故障时的迭代进度１００（ｃ）ｄａｔａｓｅｔ３总迭代次数（１９３）图１８ＰａｇｅＲａｎｋ算法恢复迭代次数比较（３）迭代恢复时间评估分布式迭代计算的运行时间是影响计算效率的关键．现实世界中的分布式集群出现的故障时间是无法精确预估的．为了保证实验的完整性，实验假定故障在总的迭代次数执行一半时发生故障．使用ＰａｇｅＲａｎｋ算法和ＣｏｎｎｅｃｔｅｄＣｏｍｐｏｎｅｎｔｓ算法对大规模数据集进行了实验分析，如图１９和图２０分别°５１０２０３０４０发生故障时的迭代进度（ａ） ｆａｃｅｂｏｏｋ＿ａｔｈｌｅｔｅｓ（总迭代次数４６）６０００１０３０５０７０９０１００发生故障时的迭代进度（ｂ）ｄａｔａ２（总迭代次数１２１）为不同数据集下的实验效果．图２１和图２２综合对比了不同数据集下的全量迭代和增量迭代使用乐观容错机制提升的效率．实验效果表明，在运行时间上，基于乐观的容错机制比Ｆｌｉｎｋ原有的容错机制在全量迭代上平均提升了１６．  ８１％，在增量迭代平均提升了２４．２％．６００错机制在全量迭代上平均节省了３５． ８７％，在增量迭代上随迭代进度呈线性提升．在不同规模的数据集上验证了乐观容错恢复机制补偿后的快速的收敛恢复速度．１００｜Ｂ优化后的ＦｌｉｎｋＳ未优化的Ｆｌｉｎｋ  ｜ｍｉｌ ｉｉ丨Ｈ优化后的Ｆｌｉｎｋ Ｓ未优化的Ｆｌｉｎｋ ｜１优化后的Ｆｌｉｎｋ Ｓ未优化的Ｆｌｉｎｋ ｜２１１４ 计算机学 报 ２０２０ 年ｏｏｏｏ８６４２ＯＩ＆ＯＩ６５４００００００ｏｏｏｏｏｏ８５２９６３ｗ＾＾ｌ细Ｓ１１５㈣峯ｏｏｏＩｏｏｏｏ５４３２ｏｏｏｏｏｏ２０８６４２ｏｏｏｏｏｏｏｏｏｏ５４３２１Ｓ／ＲＩ忘妇胡／／／／／／／／／／ｆｆｆ／ｆ／／／／／／？．ｆ／／／／／／／／／ＡＸＮＶＳＸＮＸＷＣＳＮＸＶＷＮＮＸＮＷＶＮＸＶ＾ｓｓｓｓｓｓｓｓｓｓｓ＼＼ｓｓｓｓ＞郭文鹏等：面向Ｆｌｉｎｋ迭代汁算的高效容错处理技术 ２１１５１０３０５０７０９０１００迭代故障进度丨冬１ ２２增Ｗ迭代不Ｎ数据集下提升的效率１００ａｓ－Ｓｋｉｔｔｅｒｗｉｋｉ－ｔｏｐｃａｔｓ数据集（ａ） ＰａｇｅＲａｎｋ检查点时间对比１０２０３０迭代故障进度４０图２１全Ｍ迭代不同数据集下提升的效率３５５０１０３０５０７０９０１００发生故障时的迭代进度（ｃ） ｄａｔａｓｅｔ３（总迭代次数３７５）图２０ＣｏｒｍｅｃｔｅｄＣｏｍｐｏｎｅｎｔ算法运行时间比较检查点的写人速率和效率也会有影响．为了尽量避免该影响，实验以迭代次数Ｖ＾＂（其中《为总迭代次数）为间隔使用ＣｏｎｎｅｃｔｅｄＣｏｍｐｏｎｅｎｔｓ 算法和ＰａｇｅＲａｎｋ算法在数据ｉ－ｔｏｐｃａｔｓ和ａｓ－Ｓｋｉｔｔｅｒ上进行实验．其中运行时间分别如图２３所示．实验效果表明，尾部检查点的平均时间开销在全量和迭代和增量迭代上均优于现有的阻塞检查点，平均节省开销分别为１３．  ８２％和１０． ８７％．面向迭代任务的尾部检查点的容错效率高于头部检查点．（ａ） ｄａｔａｓｅｔｌ（总迭代次数１０１）１０３０５０７０９０１００发生故障时的迭代进度（ｂ） ｄａｔａｓｅｔ２（总迭代次数３４３）３５０３００ｒ）（）３５０３００数据集（ｂ） ＣｏｎｎｅｃｔｅｄＣｏｍｐｏｎｅｎｔｓ检查点时间对比图２３不同检查点容错机制运行时间对比—？－优化后的Ｆｌｉｎｋ？未优化的Ｆｌｉｎｋ？ ｄａｔａｓｅｔ１ｄａｔａｓｅｔ２ｄａｔａｓｅｔ３？？？＼ ｗ，１１期ｏｌｏｌｏｌｏｌ７６５４０００５０３２２％／嫌較电蜞叵宏５０２０１５０００ｖｔａｌｆｅｆｃｌｓｏｏｏｏｏ５０５０５２２１．—－ｏｏｏｏｏ０５０５０３２２１１ｖＲｌｆｅ＾ｌＦ２２９６次／ｔｌ较２１１６ 计算机学报 ２０２０ 年表３乐观容错机制实验条件及性能优化对比（ａ） ＰａｇｅＲａｎｋ算法执行时间对比ｗｅｂ－Ｇｏｏｇｌｅ ｓｏｃ－ＬＪ总迭代次数 ６４ ５８ＥＰＳＩＬＯＮ ０． ０００００００１ ０． ００００００００１Ｐａｇｅｓ ８７５７１３ ４８４７５７１Ｌｉｎｋｓ ５１０５ ０３９ ６８９９３７７３模拟故障 第３２次 第２９次未优化时间 ３６５ ｓ １８６７ｓ优化后时间 ３４３ｓ １７６４ｓ提升百分比 ５． ７５％ ５． ５２％（ｂ）ＣｏｎｎｅｃｔｅｄＣｏｍｐｏｎｅｎｔｓ算法执行时间对比ｄａｔａｓｅｔｌ ｄａｔａｓｅｔ２ ｓｏｃ－ＬＪ总迭代次数 １０１ １２１ １２Ｖｅｒｔｅｘ ２０２０ ５００１２２ ４８４７５７１Ｅｄｇｅ ４０ ０００ ５０００１２１ ６８ ９９３７７３模拟故障 第５０次 第６０次 第６次未优化时间 Ｉｌｌｓ １６４ｓ ３０１ｓ优化后时间 １３６ｓ １３８ｓ ２６６ｓ提升百分比 ２２． ５２％ １５． ８５％ １１．６３％表４悲观容错机制实验条件及开销对比（ａ＞ＰａｇｅＲａｎｋ算法检查点所占开销ｓｃ－Ｓｋｉｔｔｅｒ ｗｉｋｉ－ｔｏｐｃａｔｓ正常时间 ２９２ｓ ４３４ ｓ头检查点 ３４０ ｓ ５２６ｓ尾检查点 ３２７ ｓ ５０３ ｓ阻塞检查点 ３９３ｓ ６９７ｓ头检查点开销 １６．４％ ２１．２％尾检查点开销 １１．９％ １５． ８％阻塞检查点 ３４．６％ ３７．７＾头尾平均容错 １４．２％ １８．５％（ｂ） Ｃｏｎｎｅｃｔｅｄ  Ｃｏｍｐｏｎｅｎｔｓ算法检査点所占开销ｄａｔａｌ ｄａｔａ２正常时间 １１２ｓ １３８ｓ头检查点 １２４ｓ １５３ｓ尾检査点 １１５ｓ １４０ｓ阻塞检査 １３３ｓ １６５ｓ头检査点开销 ９． ６％ １０．  ９％尾检査点开销 ２．７％ １．４％阻塞检査点 １８．８％ １９．  ６％７总结本文提出了面向大规模迭代计算的乐观容错机制和悲观容错机制．与现有的大数据计算平台的容错机制不同，乐观容错机制只在故障发生时进行补偿恢复，减少了不必要的容错代价和开销，在故障率较低的情况下，提拱了高效的处理性能．悲观容错机制主要采用迭代数据流任务的特点，将检查点注入迭代数据流中，无需阻塞操作，以较低的开销保证了迭代任务的正确执行．大量的实验表明，在处理大规模的迭代计算时，乐观恢复的容错机制随迭代规模的增大和迭代进度的推移节省的迭代次数越多，全量迭代运行时间平均提升３５． ８７％．增量迭代随迭代进度呈线性提升．在迭代中期出现故障时，全量迭代运行时间平均提升１６． ８１％．增量迭代平均运行时间提升２４． ２％．头尾检查点容错机制虽然与不同的硬件环境和网络带宽有关，但其总体代价开销在不同情况下均小于阻塞检査点．尾部检査点面向增量迭代任务平均节省的时间代价开销为１３．８２％，面向全量迭代任务平均提升１０．８７％．由于受网络带宽和外部设备的影响，悲观的容错机制误差较较大，但尾部检査点和头部检査点的代价开销均小于阻塞检査点．后期将会采取某种技术手段，调整网络带宽并结合磁盘是否空闲来减少外界条件不同引人的误差．目前的补偿函数迭代次数优化的比例通常高于迭代时间优化的比例，可能的原因是补偿函数数据收集完成之后没有释放中间数据的内存，导致之后的迭代时间优化效率偏低．下一步将针对现有的内存消耗型补偿算法进行优化．参考文献［１］ＺｈａｎｇＹ？ ＧａｏＱ？ Ｇａｏ Ｌ？ ｅｔ ａｌ． ｉＭａｐＲｅｄｕｃｅ： Ａ ｄｉｓｔｒｉｂｕｔｅｄｃｏｍｐｕｔｉｎｇ ｆｒａｍｅｗｏｒｋ ｆｏｒ ｉｔｅｒａｔｉｖｅｃｏｍｐｕｔａｔｉｏｎ．Ｊｏｕｒｎａｌ ｏｆＧｒｉｄ Ｃｏｍｐｕｔｉｎｇ， ２０１２， １０（１）： ４７－６８［２］ Ｍａｓｓｕｃｃｉ ＦＡ？Ｄｏｃａｍｐｏ Ｄ．Ｍｅａｓｕｒｉｎｇｔｈｅａｃａｄｅｍｉｃ ｒｅｐｕｔａｔｉｏｎｔｈｒｏｕｇｈ ｃｉｔａｔｉｏｎ ｎｅｔｗｏｒｋｓ ｖｉａ ＰａｇｅＲａｎｋ． Ｊｏｕｒｎａｌｏｆ Ｉｎｆｏｒｍｅｔｒｉｃｓ，２０１９， １３（１）： １８５－２０１［３］ Ｈａｖｅｌｉｗａｌａ Ｔ Ｈ． Ｔｏｐｉｃ－ｓｅｎｓｉｔｉｖｅ ＰａｇｅＲａｎｋ： Ａ ｃｏｎｔｅｘｔ－ｓｅｎｓｉｔｉｖｅｒａｎｋｉｎｇ ａｌｇｏｒｉｔｈｍ ｆｏｒ ｗｅｂｓｅａｒｃｈ．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓ ｏｎＫｎｏｗｌｅｄｇｅ ａｎｄ ＤａｔａＥｎｇｉｎｅｅｒｉｎｇ＊ ２００３？ １５（４）： ７８４－７９６［４］Ｇｏｎｚａｌｅｚ ＳａｎｃｈｅｚＲ．Ｍｅａｓｕｒｅｍｅｎｔｓａｎｄ ａｎａｌｙｓｉｓ ｏｆ ｏｎｌｉｎｅｓｏｃｉａｌ ｎｅｔｗｏｒｋｓ． Ｍａｔｅｒｉａｌｓ Ｔｒａｎｓａｃｔｉｏｎｓ ＪＩＭ，２０１４，２１（３）：１５９－１６８［５］ Ｌｉ  Ｊ Ｒ？ ＣｈｅｎＬ， ＷａｎｇＳ Ｐ， ｅｔ ａｌ． Ａｃｏｍｐｕｔａｔｉｏｎａｌ ｍｅｔｈｏｄｕｓｉｎｇｔｈｅ  ｒａｎｄｏｍｗａｌｋｗｉｔｈｒｅｓｔａｒｔ ａｌｇｏｒｉｔｈｍ ｆｏｒ ｉｄｅｎｔｉｆｙｉｎｇｎｏｖｅｌ ｅｐｉｇｅｎｅｔｉｃ ｆａｃｔｏｒｓ．Ｍｏｌｅｃｕｌａｒ Ｇｅｎｅｔｉｃｓａｎｄ Ｇｅｎｏｍｉｃｓ ？２０１８，２９３（１）：２９３－３０１［６］ＡｄｅｗｏｌｅＫＳ？ ＡｎｕａｒＮ Ｂ， Ｋａｍｓｉｎ Ａ． Ｍａｌｉｃｉｏｕｓ  ａｃｃｏｕｎｔｓ：Ｄａｒｋ  ｏｆ ｔｈｅ ｓｏｃｉａｌ ｎｅｔｗｏｒｋｓ．Ｊｏｕｒｎａｌ ｏｆ ＮｅｔｗｏｒｋＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓ，２０１７，７９（１）： ４１－６７［７］Ｓｈｕ Ｋａｉ，Ｗａｎｇ  Ｓｕ－Ｈａｎｇ，Ｔａｎｇ Ｊｉ－Ｌｉａｎｇ，ｅｔ ａｌ． Ｕｓｅｒ ｉｄｅｎｔｉｔｙｌｉｎｋａｇｅ ａｃｒｏｓｓ ｏｎｌｉｎｅ  ｓｏｃｉａｌ  ｎｅｔｗｏｒｋｓ： Ａ  ｒｅｖｉｅｗ． ＡＣＭＳＩＧＫＤＤＥｘｐｌｏｒａｔｉｏｎｓ Ｎｅｗｓｌｅｔｔｅｒ，２０１７，１８（２）： ５－１７［８］Ｘｕ Ｃ， ＨｏｌｚｅｍｅｒＭ， Ｋａｕｌ Ｍ， ａｎｄ Ｍａｒｋｌ Ｖ．Ｅｆｆｉｃｉｅｎｔｆａｕｌｔ－ｔｏｌｅｒａｎｃｅ ｆｏｒ ｉｔｅｒａｔｉｖｅｇｒａｐｈ ｐｒｏｃｅｓｓｉｎｇ ｏｎ ｄｉｓｔｒｉｂｕｔｅｄ ｄａｔａｆｌｏｗｓｙｓｔｅｍｓ／／Ｐｒｏｃｅｅｄｉｎｇｓ  ｏｆ ｔｈｅ ＩＥＥＥ３２ｎｄ Ｉｎｔｅｒｎａｔｉｏｎａｌ ＣｏｎｆｅｒｅｎｃｅＤａｔａ Ｅｎｇｉｎｅｅｒｉｎｇ． Ｈｅｌｓｉｎｋｉ， Ｆｉｎｌａｎｄ， ２０１６：６１３－６２４［９］ＰｅｎｇＷ，ＬｉＭ，Ｃｈｅｎ  Ｌ，ｅｔ ａｌ． Ｐｒｅｄｉｃｔｉｎｇ  ｐｒｏｔｅｉｎｆｕｎｃｔｉｏｎｓｂｙ ｕｓｉｎｇｕｎｂａｌａｎｃｅｄ  ｒａｎｄｏｍ ｗａｌｋ  ａｌｇｏｒｉｔｈｍ ｏｎ ｔｈｒｅｅ ｂｉｏｌｏｇｉｃａｌｎｅｔｗｏｒｋｓ． ＩＥＥＥ／ＡＣＭ Ｔｒａｎｓａｃｔｉｏｎｓｏｎ Ｃｏｍｐｕｔａｔｉｏｎａｌ  Ｂｉｏｌｏｇｙａｎｄ Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ， ２０１７＊ １４（２）： ３６０－３６９郭文鹏等：面向Ｆｌｉｎｋ迭１１期 代计算的高效容错处理技术 ２１１ ７［１０］ Ｙｕ  Ｊｉｅ－Ｇｅｎｇ． Ｙｉｎｇ Ｌｉｎ，ＹａｎＭａ，ｅｔ  ａｌ． Ｉｎｔｅｒａｃｔｉｖｅ ｖｉｓｕａｌｉｚａｔｉｏｎｏｆ ＤＧＡ ｄａｔａ ｂａｓｅｄ  ｏｎ ｍｕｌｔｉｐｌｅ ｖｉｅｗｓ． Ｊｏｕｒｎａｌ ｏｆ ＰｈｙｓｉｃｓＣｏｎｆｅｒｅｎｃｅ＊ ２０１７， ７８７（１）： ０１２００１［１１］ＷａｎｇＱｉａｎ， ＷａｎｇＪｕｎ－Ｂｏ． Ｉｍｐｒｏｖｅｄ ｃｏｌｌａｂｏｒａｔｉｖｅ ｆｉｌｔｅｒｉｎｇｒｅｃｏｍｍｅｎｄａｔｉｏｎ  ａｌｇｏｒｉｔｈｍ． Ｃｏｍｐｕｔｅｒ Ｓｃｉｅｎｃｅ， ２０１０，  ３７（６）：２２６－２２８（ｉｎＣｈｉｎｅｓｅ）（王茜，王均波．一种改进的协同过滤推荐算法．计算机科学，２０１０，  ３７（６）： ２２６－２２８）［１２］Ｊｅｏｎｇ Ｙ Ｊ，ＬｅｅＪ， Ｍｏｏｎ Ｊ，ｅｔ ａｌ． Ｋ－Ｍｅａｎｓｄａｔａ ｃｌｕｓｔｅｒｉｎｇｗｉｔｈ ｍｅｍｒｉｓｔｏｒｎｅｔｗｏｒｋｓ．ＮａｎｏＬｅｔｔｅｒｓ＊２０１８，１８（７）：４４４７－４４５３［１３］ＤｉｔｔｒｉｃｈＪ？ Ｑｕｉａｎｅ－Ｒｕｉｚ  Ｊ Ａ． Ｅｆｆｉｃｉｅｎｔ ｂｉｇ  ｄａｔａｐｒｏｃｅｓｓｉｎｇｉｎＨａｄｏｏｐ ＭａｐＲｅｄｕｃｅ． Ｐｒｏｃｅｅｄｉｎｇｓ ｏｆ ｔｈｅＶＬＤＢＥｎｄｏｗｍｅｎｔ，２０１２，５（１２）： ２０１４－２０１５［１４］Ｚａｈａｒｉａ Ｍ， Ｘｉｎ ＲＳ． Ｗｅｎｄｅｌｌ Ｐ．ｅｔ ａｌ． Ａｐａｃｈｅｓｐａｒｋ：Ａｕｎｉｆｉｅｄ ｅｎｇｉｎｅ ｆｏｒ ｂｉｇ ｄａｔａ ｐｒｏｃｅｓｓｉｎｇ． Ｃｏｍｍｕｎｉｃａｔｉｏｎｓｏｆ ｔｈｅＡＣＭ， ２０１６， ５９（１１）： ５６－６５［１５］ Ｃａｒｂｏｎｅ Ｐ，ＫａｔｓｉｆｏｄｉｍｏｓＡ，Ｅｗｅｎ  Ｓ，ｅｔ  ａｌ．Ａｐａｃｈｅ ｆｌｉｎｋ：Ｓｔｒｅａｍａｎｄ ｂａｔｃｈ ｐｒｏｃｅｓｓｉｎｇ ｉｎ  ａｓｉｎｇｌｅｅｎｇｉｎｅ． Ｂｕｌｌｅｔｉｎ  ｏｆｔｈｅ  ＩＥＥＥ ＣｏｍｐｕｔｅｒＳｏｃｉｅｔｙ ＴｅｃｈｎｉｃａｌＣｏｍｍｉｔｔｅｅ ｏｎ ＤａｔａＥｎｇｉｎｅｅｒｉｎｇ， ２０１５，３６（４）：  ２８－３８［１６］Ｓｃｈｅｒｂａｕｍ Ｊ，Ｎｏｖｏｔｎｙ Ｍ，Ｖａｙｄａ Ｏ．Ｓｐｌｉｎｅ：  Ｓｐａｒｋ ｌｉｎｅａｇｅ，ｎｏｔ ｏｎｌｙ ｆｏｒ ｔｈｅ ｂａｎｋｉｎｇ  ｉｎｄｕｓｔｒｙ／／Ｐｒｏｃｅｅｄｉｎｇｓ ｏｆ ｔｈｅ ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ ｏｎ Ｂｉｇ Ｄａｔａ ａｎｄＳｍａｒｔＣｏｍｐｕｔｉｎｇ（ＢｉｇＣｏｍｐ）． Ｓｈａｎｇｈａｉ． Ｃｈｉｎａ＊  ２０１８： ４９５－４９８［１７］Ｋｉｅｈｎ Ａ，Ａｇｇａｒｗａｌ Ｄ．Ａ ｓｔｕｄｙ ｏｆｍｕｔａｂｌｅｃｈｅｃｋｐｏｉｎｉｉｎｇａｎｄｒｅｌａｔｅｄａｌｇｏｒｉｔｈｍｓ． Ｓｃｉｅｎｃｅｏｆ Ｃｏｍｐｕｔｅｒ Ｐｒｏｇｒａｍｍｉｎｇ．２０１８， １６０（１）：７８－９２［１８］Ｗｅｎ Ｍｅｉ．Ｌｉ Ｈｏｎｇ－Ｌｉａｎｇ．Ｒｅｓｅａｒｃｈ ａｎｄ ｐｒａｃｔｉｃｅ ｏｆ ｔｈｅｒｏｌｌ－ｆｏｒｗａｒｄ ｒｅｃｏｖｅｒｙ ｔｅｃｈｎｉｑｕｅ ｉｎ  ｄｉｓｔｒｉｂｕｔｅｄ ａｎｄ ｒｅａｌ－ｔｉｍｅｓｙｓｔｅｍｓ．Ｃｏｍｐｕｔｅｒ Ｅｎｇｉｎｅｅｒｉｎｇ ８＾－ Ｓｃｉｅｎｃｅ？ １９９９，２１ （５）：２８－３１ （ｉｎＣｈｉｎｅｓｅ）（文梅，李宏亮．分布式实时系统中前向恢复技术的研究与实践．计算机工程与科学，１９９９，  ２１（５）： ２８－３１）［１９］Ｄｅａｎ  Ｊ？ Ｇｈｅｍａｗａｔ Ｓ． ＭａｐＲｅｄｕｃｅ： Ｓｉｍｐｌｉｆｉｅｄ ｄａｔａ ｐｒｏｃｅｓｓｉｎｇｏｎｌａｒｇｅ ｃｌｕｓｔｅｒｓ． Ｉｎ ＯＳＤＩ，  ２００４： １３７－１５０［２０］Ｚｈｏｕ Ｊｉａｎｇ． ＷａｎｇＷｅｉ－Ｐｉｎｇ． Ｍｅｎｇ Ｄａｎ， ｅｔ ａｌ．Ｋｅｙ Ｔｅｃｈｎｏｌｏｇｙｉｎｄｉｓｔｒｉｂｕｔｅｄ ｆｉｌｅ ｓｙｓｔｅｍ ｔｏｗａｒｄｓ ｂｉｇｄａｔａ ａｎａｌｙｓｉｓ． Ｊｏｕｒｎａｌｏｆ  Ｃｏｍｐｕｔｅｒ Ｒｅｓｅａｒｃｈ ａｎｄ Ｄｅｖｅｌｏｐｍｅｎｔ，２０１４，５１（２）： ３８２－３９４（ｉｎ Ｃｈｉｎｅｓｅ）（周江，王伟平．孟丹等．面向大数据分析的分布式文件系统关键技术．计箅机研究与发展，２０１４， ５１（２）：  ３８２－３９４）［２１］ Ｅｗｅｎ Ｓ， ＴｚｏｕｍａｓＫ． Ｋａｕｆｍａｎｎ Ｍ， ｅｔ ａｌ． Ｓｐｉｎｎｉｎｇｆａｓｔ ｉｔｅｒａｔｉｖｅｄａｔａ ｆｌｏｗｓ． Ｐｒｏｃｅｅｄｉｎｇｓ ｏｆ ｔｈｅ ＶＬＤＢＥｎｄｏｗｍｅｎｔ，２０１２，５（１１）：１２６８－１２７９ＧＵＯＷｅｎ－Ｐｅｎｇ，Ｍ． Ｓ．ｃａｎｄｉｄａｔｅ．Ｈｉｓ ｍａｊｏｒ ｒｅｓｅａｒｃｈｉｎｔｅｒｅｓｔ ｉｓ ｂｉｇ ｄａｔａ．［２２］Ｄｕｄｏｌａｄｏｖ  Ｓ， ＸｕＣ，Ｓｃｈｅｌｔｅｒ  Ｓ，ｅｔａｌ． Ｏｐｔｉｍｉｓｔｉｃｒｅｃｏｖｅｒｙｆｏｒ ｉｔｅｒａｔｉｖｅ ｄａｔａｆｌｏｗｓｉｎ ａｃｔｉｏｎ／／Ｐｒｏｃｅｅｄｉｎｇｓ ｏｆ ｔｈｅＡＣＭＳＩＧＭＯＤＩｎｔｅｒｎａｔｉｏｎａｌ ＣｏｎｆｅｒｅｎｃｅｏｎＭａｎａｇｅｍｅｎｔ  ｏｆ Ｄａｔａ．Ｍｅｌｂｏｕｒｎｅ，Ｖｉｃｔｏｒｉａ，Ａｕｓｔｒａｌｉａ，２０１５： １４３９－１４４３［２３］Ｅｋａｎａｙａｋｅ Ｊ． ＬｉＨ． Ｚｈａｎｇ Ｂ． ｅｔ  ａｌ．Ｔｗｉｓｔｅｒ： Ａ ｒｕｎｔｉｍｅ ｆｏｒｉｔｅｒａｔｉｖｅＭａｐＲｅｄｕｃｅ／／Ｐｒｏｃｅｅｄｉｎｇｓ ｏｆ ｔｈｅ ＡＣＭＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍ ｏｎ Ｈｉｇｈ Ｐｅｒｆｏｒｍａｎｃｅ ＤｉｓｔｒｉｂｕｔｅｄＣｏｍｐｕｔｉｎｇ．Ｃｈｉｃａｇｏ． Ｉｌｌｉｎｏｉｓ，２０１０：  ８１０－８１８［２４］ ＢｕＹ，Ｈｏｗｅ Ｂ，ＢａｌａｚｉｎｓｋａＭ，ｅｔａｌ．ＨａＬｏｏｐ：Ｅｆｆｉｃｉｅｎｔｉｔｅｒａｔｉｖｅ  ｄａｔａ ｐｒｏｃｅｓｓｉｎｇ ｏｎ  ｌａｒｇｅ ｃｌｕｓｔｅｒｓ． Ｐｒｏｃｅｅｄｉｎｇｓ ｏｆｔｈｅＶＬＤＢＥｎｄｏｗｍｅｎｔ，  ２０１０， ３（１－２）：２８５－２９６［２５］Ｕｐａｄｈｙａｙａ Ｐ． Ｋｗｏｎ ＹＣ，ＢａｌａｚｉｎｓｋａＭ．Ａ ｌａｔｅｎｃｙ ａｎｄｆａｕｌｔ－ｔｏｌｅｒａｎｃｅｏｐｔｉｍｉｚｅｒｆｏｒｏｎｌｉｎｅ ｐａｒａｌｌｅｌ ｑｕｅｒｙｐｌａｎｓ／／Ｐｒｏｃｅｅｄｉｎｇｓ  ｏｆ  ｔｈｅ ＡＣＭＳＩＧＭＯＤ ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎ Ｍａｎａｇｅｍｅｎｔ ｏｆ Ｄａｔａ． ２０１１：２４１－２５２［２６］Ａｌｅｘａｎｄｒｏｖ Ａ，Ｂｅｒｇｍａｎｎ Ｒ，  Ｅｗｅｎ Ｓ，ｅｔ ａｌ．Ｔｈｅ ｓｔｒａｔｏ？ｓｐｈｅｒｅｐｌａｔｆｏｒｍｆｏｒｂｉｇ ｄａｔａ ａｎａｌｙｔｉｃｓ．ＴｈｅＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｎ  Ｖｅｒｙ ＬａｒｇｅＤａｔａ Ｂａｓｅｓ，２０１４，２３（６）： ９３９－９６４［２７］Ｂｅｎｊａｍｉｎ ＡＳ＊ＤｉａｚＭＭ， Ｌａｕｒａ Ｅ， ｅｔ ａｌ．Ｔｅｓｔｓｏｆ ｔｈｅＤＲＹＡＤ ｔｈｅｏｒｙ  ｏｆｔｈｅ ａｇｅ－ｒｅｌａｔｅｄ ｄｅｆｉｃｉｔ ｉｎｍｅｍｏｒｙ  ｆｏｒ ｃｏｎｌｅｘｔ：Ｎｏｔ ａｂｏｕｔｃｏｎｔｅｘｔ？ａｎｄ ｎｏｔａｂｏｕｔ ａｇｉｎｇ． Ｐｓｙｃｈｏｌｏｇｙ＆－Ａｇｉｎｇ，２０１２，  ２７（２）： ４１８－４２８［２８］Ｌｉ Ｚ， ＮｉｅＦ，ＣｈａｎｇＸ，ｅｔａｌ．Ｒａｎｋ－ｃｏｎｓｔｒａｉｎｅｄｓｐｅｃｔｒａｌｃｌｕｓｔｅｒｉｎｇｗｉｔｈｆｌｅｘｉｂｌｅ ｅｍｂｅｄｄｉｎｇ．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓａｎｄ Ｌｅａｒｎｉｎｇ Ｓｙｓｔｅｍｓ？２０１８，２９（１２）：６０７３－６０８２［２９］ＹｉｎＨ， Ｂｅｎｓｏｎ Ａ Ｒ，Ｌｅｓｋｏｖｅｃ Ｊ，ｅｔ ａｌ． Ｌｏｃａｌｈｉｇｈｅｒ－ｏｒｄｅｒｇｒａｐｈ ｃｌｕｓｔｅｒｉｎｇ／／Ｐｒｏｃｅｅｄｉｎｇｓ ｏｆ  ｔｈｅＡＣＭ ＳＩＧＫＤＤ Ｉｎｔｅｒｎａ？ｔｉｏｎａｌ Ｃｏｎｆｅｒｅｎｃｅ ｏｎ  ＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙ ａｎｄ ＤａｔａＭｉｎｉｎｇ．Ｈａｌｉｆａｘ，Ｃａｎａｄａ，２０１７：５５５－５６４［３０］Ｄｉｅｆｅｎｄｅｒｆｅｒ  ＣＬ？ Ｄｏａｎ ＲＡ， Ｓａｌｏｗｅｙ Ｃ．Ｔｈｅ ｑｕａｎｔｉｔａｔｉｖｅｒｅａｓｏｎｉｎｇｐｒｏｇｒａｍａｔＨｏｌｌｉｎｓ Ｕｎｉｖｅｒｓｉｔｙ．Ｐｅｅｒ Ｒｅｖｉｅｗ，２００４， ６（４）：  １３［３１］ Ｌｅｓｋｏｖｅｃ Ｊ． Ｋｌｅｉｎｂｅｒｇ Ｊ，Ｆａｌｏｕｔｓｏｓ Ｃ．Ｇｒａｐｈｓｏｖｅｒ ｔｉｍｅ：Ｄｅｎｓｉｆｉｃａｔｉｏｎｌａｗｓ，ｓｈｒｉｎｋｉｎｇｄｉａｍｅｔｅｒｓａｎｄｐｏｓｓｉｂｌｅｅｘｐｌａｎａｔｉｏｎｓ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ ｔｈｅＥｌｅｖｅｎｔｈＡＣＭＳＩＧＫＤＤＩｎｔｅｒｎａｔｉｏｎａｌ ＣｏｎｆｅｒｅｎｃｅｏｎＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙｉｎ ＤａｔａＭｉｎｉｎｇ． Ｃｈｉｃａｇｏ， ＵＳＡ，  ２００５： １７７－１８７［３２］Ｌｅｓｋｏｖｅｃ  Ｊ，Ｌａｎｇ ＫＪ，Ｄａｓｇｕｐｔａ Ａ，ｅｔ ａｌ．Ｃｏｍｍｕｎｉｔｙｓｔｒｕｃｔｕｒｅ ｉｎ ｌａｒｇｅ ｎｅｔｗｏｒｋｓ： Ｎａｔｕｒａｌ ｃｌｕｓｔｅｒｓｉｚｅｓ ａｎｄｔｈｅａｂｓｅｎｃｅｏｆ  ｌａｒｇｅ ｗｅｌｌ－ｄｅｆｉｎｅｄ  ｃｌｕｓｔｅｒｓ． ＩｎｔｅｒｎｅｔＭａｔｈｅｍａｔｉｃｓ，２００９， ６（１）： ２９－１２３［３３］ＣｅｎｔｏｌａＤ．Ｔｈｅ ｓｏｃｉａｌｏｒｉｇｉｎｓｏｆ ｎｅｔｗｏｒｋｓ ａｎｄ ｄｉｆｆｕｓｉｏｎ．Ａｍｅｒｉｃａｎ  Ｊｏｕｒｎａｌ ｏｆ Ｓｏｃｉｏｌｏｇｙ，２０１５，１２０（５）： １２９５－１３３８ＺＨＡＯ Ｙｕ－Ｈａｉ． Ｐｈ． Ｄ．， ｐｒｏｆｅｓｓｏｒ．Ｈｉｓｍａｊｏｒｒｅｓｅａｒｃｈｉｎｔｅｒｅｓｔ  ｉｓ ｄａｔａ ｍｉｎｉｎｇ．ＷＡＮＧ Ｇｕｏ－Ｒｅｎ． Ｐｈ． Ｄ． ，ｐｒｏｆｅｓｓｏｒ．Ｈｉｓｍａｊｏｒ ｒｅｓｅａｒｃｈｉｎｔｅｒｅｓｔ  ｉｓ ｄａｔａｂａｓｅ．ＷＥＩ Ｌｉｕ－Ｇｕｏ，Ｍ． Ｓ． ｃａｎｄｉｄａｔｅ． Ｈｉｓｍａｉｎ ｒｅｓｅａｒｃｈ ｉｎｔｅｒｅｓｔｉｓ ｂｉｇｄａｔａ．２１１８ 计算机学报 ２０２０ 年ＢａｃｋｇｒｏｕｎｄＤｉｓｔｒｉｂｕｔｅｄ ｉｔｅｒａｔｉｖｅ ｃｏｍｐｕｔｉｎｇｉｓｏｎｅ ｏｆ ｔｈｅ ｍａｉｎｓｔｒｅａｍｔｅｃｈｎｏｌｏｇｉｅｓｉｎ ｔｈｅ ｆｉｅｌｄ ｏｆ ｂｉｇ ｄａｔａ ｐｒｏｃｅｓｓｉｎｇ ａｎｄ ａｎａｌｙｓｉｓ．Ｔｈｅ ｆａｕｌｔ ｔｏｌｅｒａｎｃｅ ｍｅｃｈａｎｉｓｍｉｓａ ｎｅｃｅｓｓａｒｙｇｕａｒａｎｔｅｅ ｆｏｒｈｉｇｈ ａｖａｉｌａｂｉｌｉｔｙ ｏｆ  ｄｉｓｔｒｉｂｕｔｅｄ ｓｙｓｔｅｍｓ．Ａｌｔｈｏｕｇｈ ｔｈｅ ｆａｕｌｔｔｏｌｅｒａｎｃｅ ｍｅｃｈａｎｉｓｍ ｏｆ  ｅｘｉｓｔｉｎｇｄｉｓｔｒｉｂｕｔｅｄ ｓｙｓｔｅｍｓ ｐｅｒｆｏｒｍｓｗｅｌｌｉｎ ｈｉｇｈａｖａｉｌａｂｉｌｉｔｙ，ｉｔｉｇｎｏｒｅｓｔｈｅ ｐｒｏｂｌｅｍｏｆｆａｕｌｔｔｏｌｅｒａｎｃｅｅｆｆｉｃｉｅｎｃｙ ｆｏｒｉｔｅｒａｔｉｖｅ ｃｏｍｐｕｔｉｎｇ． Ｔｈｅ  ｎｅｗｇｅｎｅｒａｔｉｏｎｏｆ ｂｉｇ ｄａｔａ ｃｏｍｐｕｔｉｎｇ ｓｙｓｔｅｍＡｐａｃｈｅ Ｆｌｉｎｋ ｍａｉｎｌｙ ｕｓｅｓｔｈｅ“ｄｉｓｔｒｉｂｕｔｅｄｓｎａｐｓｈｏｔ” ｃｈｅｃｋｐｏｉｎｔｍｅｃｈａｎｉｓｍｔｏ ｐｅｒｆｏｒｍｆａｕｌｔ ｔｏｌｅｒａｎｃｅ ｗｈｅｎｐｅｒｆｏｒｍｉｎｇｓｔｒｅａｍｐｒｏｃｅｓｓｉｎｇｔａｓｋｓ． Ｆｏｒｉｔｅｒａｔｉｖｅ ａｎａｌｙｓｉｓ ｏｆ ｍａｓｓｉｖｅ  ｄａｔａ？  ｃｈｅｃｋｐｏｉｎｔｓ ａｄｄ ｕｎｎｅｃｅｓｓａｒｙｄｅｌａｙ．Ｗｈｅｎｅｘｅｃｕｔｉｎｇａ ｂａｔｃｈ ｐｒｏｃｅｓｓｉｎｇ ｔａｓｋ，ｗｈｅｎｔｈｅｃｏｍｐｕｔｉｎｇ ｎｏｄｅ ｆａｉｌｓ ａｎｄｔｈｅ ｔａｓｋ  ｆａｉｌｓ，ｔｈｅ ｔａｓｋ ｉｓ ｅｘｅｃｕｔｅｄｆｒｏｍｔｈｅ ｂｅｇｉｎｎｉｎｇｔｏ ｃｏｍｐｌｅｔｅ ｔｈｅ ｆａｕｌｔ  ｔｏｌｅｒａｎｃｅ． Ｔｈｉｓ ｆａｕｌｔｔｏｌｅｒａｎｃｅ ｍｅｔｈｏｄ ｂｒｉｎｇｓ ａ ｌｏｔ ｏｆ  ｏｖｅｒｈｅａｄ．Ｂａｓｅｄ ｏｎ ｔｈｅ  ｃｈａｒａｃｔｅｒｉｓｔｉｃｓ ｏｆ Ｆｌｉｎｋ，ｓ ａｒｃｈｉｔｅｃｔｕｒｅ ａｎｄｉｔｅｒａｔｉｖｅ ｐｒｏｃｅｓｓｉｎｇ，ｔｈｉｓ ｐａｐｅｒｐｒｏｐｏｓｅｓａｎ ｏｐｔｉｍｉｓｔｉｃｉｔｅｒａｔｉｖｅｆａｕｌｔ ｔｏｌｅｒａｎｃｅ ｍｅｃｈａｎｉｓｍ ｂａｓｅｄ ｏｎ ｃｏｍｐｅｎｓａｔｉｏｎｆｕｎｃｔｉｏｎｓａｎｄａ  ｐｅｓｓｉｍｉｓｔｉｃ ｉｔｅｒａｔｉｖｅ ｆａｕｌｔ  ｔｏｌｅｒａｎｃｅｍｅｃｈａｎｉｓｍｂａｓｅｄ ｏｎｈｅａｄ－ｔｏ－ｅｎｄ ｃｈｅｃｋｐｏｉｎｔｓ，ｗｈｉｃｈ ｒｅｄｕｃｅｓ ｆａｕｌｔ ｒｅｃｏｖｅｒｙ ｔｉｍｅａｎｄ ｆａｕｌｔ ｔｏｌｅｒａｎｃｅ ｏｖｅｒｈｅａｄ ａｎｄ ｉｍｐｒｏｖｅｓ ｉｔｅｒａｔｉｖｅ ｃａｌｃｕｌａｔｉｏｎｅｆｆｅｃｔｉｖｅｎｅｓｓ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓ  ｐｒｏｖｅ ｔｈｅｅｆｆｉｃｉｅｎｃｙｏｆ ｔｈｅ ｉｔｅｒａｔｉｖｅ ｆａｕｌｔ－ｔｏｌｅｒａｎｔ ｏｐｔｉｍｉｚａｔｉｏｎ ｔｅｃｈｎｉｑｕｅ ｐｒｏｐｏｓｅｄｉｎ ｔｈｉｓ ｐａｐｅｒ．Ｔｈｉｓｗｏｒｋ ｗａｓ ｓｕｐｐｏｒｔｅｄ  ｂｙ ｔｈｅ Ｎａｔｉｏｎａｌ Ｋｅｙ Ｒｅｓｅａｒｃｈａｎｄ ＤｅｖｅｌｏｐｍｅｎｔＰｒｏｇｒａｍ ｏｆ Ｃｈｉｎａ （２０１８ＹＦＢ１００４４０２）ａｎｄｔｈｅＧｅｎｅｒａｌＰｒｏｇｒａｍｏｆｔｈｅＮａｔｉｏｎａｌＮａｔｕｒａｌＳｃｉｅｎｃｅＦｏｕｎｄａｔｉｏｎ  ｏｆ Ｃｈｉｎａ （６１７７２１２４）．

[返回]

上一篇：面向轨交控制软件需求模型的量纲分析方法
下一篇：理性公平的秘密共享方案_刘海