RDBMS上的声明式递归计算 - SCI期刊论文 - 一起赢论文辅导网--专业代写代发SCI、EI、核心期刊、代写MBA、硕博毕业论文。QQ910330594

欢迎访问一起赢论文辅导网

加入收藏 | 设为主页 | 联系我们

本站动态

联系我们

QQ：3949358033

微信：paperwinner

工作时间：9:00-24:00

成功案例

SCI期刊论文

当前位置：首页 > SCI期刊论文

RDBMS上的声明式递归计算

来源：一起赢论文网日期：2020-01-04 浏览数：1901 【字体：大中小】

论文题目：Declarative Recursive Computation on an RDBMS, or, Why You Should

Use a Database for Distributed Machine Learning

中文题目：RDBMS上的声明式递归计算，或者为什么要使用数据库进行分布式

机器学习

论文作者：Jankov, Dimitrije, Shangyu Luo, Binhang Yuan, Zhuhua Cai, Jia Zou, Chris

Jermaine, and Zekai J. Gao

论文出处：45

International Conference on VeryLarge Data Bases – VLDB 2019

论文地址：http://www.vldb.org/pvldb/vol12/p822-jankov.pdf

研究问题：

诸如TensorFlow 之类的现代机器学习（ML）平台主要是为了支持数据并行

性而设计的，其中在一组计算单元上并行执行一组几乎相同的计算（例如，梯度

计算）。计算之间的唯一区别是，每个计算都针对不同的训练数据（称为“批次”）

进行操作。对于异步数据并行性而言，在每次计算完成后，都将本地结果加载到

参数服务器；对于同步数据并行性而言，在每次计算完成后，都将本地结果全局

聚合并用于更新模型。但问题是，数据并行性有其局限性。例如，数据并行性隐

含地假设正在学习的模型（以及使用批处理更新模型时生成的中间数据）可以适

合计算单元（可以是服务器或GPU）的RAM。但是，该假设有时候不成立。例

如，目前最好的NVIDIA Tesla V100 Tensor Core GPU具有32GB的RAM，然而

这32GB的RAM无法存储全连接层的200,000个类别的条目的矢量编码。处理

这样规模的模型需要并行化，在这种模型中，要学习的统计模型不是简单地在不

同的计算单元上进行复制，而是要进行分区和并行操作，并由一系列批量同步操

作执行。然而，现有的分布式机器学习系统为模型并行性提供的支持十分有限。

该论文研究如何对现代关系数据库管理系统（RDBMS）进行少量更改，以使其

适合于分布式学习计算。

研究方法：

该论文认为可以使用关系型数据库的相关技术来实现模型并行化。更加具体

的，模型的不同部分可以存储在一组表中，部分模型上的计算通常可以通过一些

SQL查询来表示。实际上，对于开发人员来说，学习算法的模型并行SQL与数

据并行实现很相似。关系数据库管理系统（RDBMS）提供了声明性的编程接口，

这意味着程序员或自动算法生成器，如果通过自动微分自动生成了ML算法，则

只需指定他/她/它想要的内容，而无需指定需要写出如何计算它。计算将由系统

自动生成，然后进行优化和执行以匹配数据大小，布局和计算硬件。无论计算是

在本地计算机上还是在分布式环境中运行，代码都是相同的。相反，诸如

TensorFlow之类的系统提供的声明性相对较弱，因为必须在某个物理计算单元

（例如GPU）上指定并执行计算图中的每个逻辑运算（例如矩阵乘法）。使用关

系技术的另一个好处是，RDBMS中的分布式计算已经研究了三十多年，并且速

度快，功能强大。RDBMS附带的查询优化器对于优化分布式计算非常有效。但

是，有两个原因导致RDBMS无法作为大多数大型ML算法的平台直接使用。首

先，RDBMS缺乏足够的递归支持。在深度学习中，“遍历”深度神经网络的各

个层，然后向后“遍历”整个网络以传播错误是必要的操作。虽然在RDBMS中，

这种“循环”可以通过表之间的递归依赖关系来声明性地表示，但是RDBMS对

递归的支持通常仅限于通过诸如传递闭包之类的集合来计算fixed-points。另一个

挑战是，典型的深度学习计算的查询计划可能会运行到成千上万的运算符，而现

[返回]

上一篇：基于联合概率矩阵分解的群推荐方法研究
下一篇：基于双记忆注意力的方面级别情感分类模型