欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
SCI期刊论文
当前位置:首页 > SCI期刊论文
基于FPGA的机器学习硬件加速研究进展_王超
来源:一起赢论文网     日期:2020-12-25     浏览数:1890     【 字体:

 第 卷 第 期年 月计 算 机 学 报收稿 日 期 在线 出 版 日 期 本课题得到国家重点研发计划 中国科学院青年创新促进会资助王 超博 士副 教 授中国计算机学会 高级 会 员主要研究方向为深度学习处理器王 腾硕士主要研究方向为神经网络加速器马 翔硕 士主要研究方向为神经网络加速器周 学 海博 士教 授主 要 研 究 领 域 为嵌 入 式 系 统 高 性 能 计 算基于 的机器学习硬件加速研究进展王 超 王 腾 马 翔 周学海中国科学技术大学计算机学院 合肥摘 要 随着日益剧增的海量数据信息的产生以及数据挖掘算法的广泛应用人们已经进入了大数据时代在 数据规模飞速增长的前提下 如何高效稳定的存取数据信息以及加快数据挖掘算法的执行已经成为学术界和工业界急需解决的关键问题 机器学习算法作为数据挖掘应用的核心组成部分 吸引了越来越多研究者的关注而 利 用 新型的软硬件手段来加速机器学习算法已经成为了目前的研究热点之一 本文主要针对基于 和 等硬 件平台设计的机器学习加速器进行了归纳与总结 首 先本文先介绍了机器学习算法对代表性的算法进行了分析和归 纳接下来对加速器可能的着眼点进行了列举综述 以各种机器学习硬件加速器为主要实例介绍了目前主流的加速器设计和实现 并围绕加速器结构进行简单分类和总结 最后本文对机器学习算法硬件加速这个领域进行了分 析并对目前的发展趋势做出了展望关 键 词 机 器 学 习 加速 器大 数 据神经网络加速器中 图 法 分 类 号 号图 面向领域的计算加速器要素间关系引 言随着日益剧增的海量数据信息的快速增长以及数据挖掘领域应 用 的 广 泛 人们已经进入了大数据时代而在这样快速发展的大数据时代浪潮下不少问题同样困扰着 计 算 机 设 计 人 员如何高效稳定的存取数据信息以及加快数据挖掘应用的执行已经成为学术界和工业界急需解决的关键问题其中机器学习算法作为数据挖掘应用的核心组成部分 吸 引了越来越多的研究者的关注 而利用现有的软硬件手段来加速机器学习算法已经成为当下的研究热点然 而在大数据时代下加速机器学习算法面临许多新的挑战在这样的环境下 有很多因素使得越来越多的用户放弃了原有的基于 的单 节 点 处理平台而转向利用其它平台和手段来加速数据挖掘机器学习应用的执行 图 展示了整个加速硬件的发展汇总而目前发展的契机 主要有以下几点海量 数 据 很 多 应 用 领 域 的 潜 在 的 数 据 规模极其庞大这使单机处理数据较为困难数据高维度某些 数 据 挖 掘 应 用 中 实 例 数据的特征数量繁 多 机器学习算法为了处理这些数据可能需要对数据特征进行分割模型 和 算 法 复 杂 一 些 高 精 度 的 机 器 学 习计 算 机 学 报 年算法通常有着较 为 复 杂 的 模 型 表 示并 往 往 需 要 大量的数据计算推理 时 间 约 束 某些数据挖掘应用如语音识别视觉物体探测等有着实时性的要求使得单机处理无法满足特定应用的需求多级 预 测 某些机器学习算法能够表示成多级管道的形式 管道中的多级分类器需要并行工作而单节点 处理平台往往无法满足这一需求现 今学 术 界 和 工 业 界 存 在 着 多 种 较 为 成 熟 的加速平台研究者可以利用这些平 台能够较好处理海量数据以及实现较高效率的机器学习算法 而 这些加速平台 可 以 概 括 为 四 类它 们 分 别 是 集成众核 专用集成电 路 通用 图 形 处 理 单元 云计 算 平 台 可 重 构 逻 辑 电 路 如以及各种 异 构 计 算 平 台 这些加速平台往往表现出不同的并行粒度 适用于不同的应用场景 并且也能够相互结合形成异构系统来充分发挥不同加速器件的处理能力同时加速平台无法仅依靠硬件系统运行同时还需要一系列配套的软件系统作为支撑 目 前 也存 在 多 种 软 件 与 中间件 系 统适 用 于 不 同 的 加 速 平台中例如适用于云计算平台的以及 等适用 于平台 的 和 等这些软件系统既充分利用了加速平台的能力又方便用户编程和使用 利用这些软件系统 用户只需要按照相应的规范和利用提供的接口来编写软件应用就能够获得较为可观的加速效果云计算平台以及通用图形处理器 是目前使用比较广泛的通用加速平台 与则往往则用于对特定的问题实现特定的加速器来实 现 硬 件 加 速 而 对 于 将 和相结合的 异 构 计 算 平 台 如 和等虽然它们在理论上有较大的加速潜力 但由于实现难度等问题目前多处于研究阶段 还存在着很多挑战性问题亟待解决 就并行方式而言 云计算平台主要依 赖 大 规 模 基 于 节点 的 计 算 集 群 来 实现它主要利用粗粒度的任务级并行来加速应用执行 则主要利用了细粒度的数据级并行主要利用了细粒度 的 数 据 级 并 行 以 及管道流水线的方 式 来 加 速 应 用可以用在边缘计算等场景中 从软件系统来说云计算平台主要包括了基于 编程 模 型 的 等以及 基 于 图 计 算 的 编 程 模 型等 的软 件 系 统 则 涵 盖 了 基 于 的和 等而对于 等加 速 器 结 构 目 前 有 一些 相 对 成 熟 的 深 度 学 习 自 动 代 码 生 成 方 法 如等可以为不同硬件后端的深度学习工作负载提供可移植性 并提供一系列的优化策略 比如高级算子融合硬件原语映射以及内存延迟覆盖等同时也有多家企业展开了深度学习开发平台的建设其中基于 的包 括 百 度 昆 仑 深鉴 科 技 的和微 软 的 等而方面 的 硬 件 加 速 器 有 谷 歌 寒武 纪 思 元 系列 海思 科 技 昇 腾 高通 骁 龙 和苹 果 的等不仅有服务端更有移动端的芯片 足以说明了目前各厂商对于硬件加速器的重视程度如表 所 示我 们 对 各 个 硬 件 平 台 的 开 发 情 况做 出 了 对 比 对于 云 计 算 平 台 和 各 种 通 用 处 理 器的应用情 况目 前 所 使 用 的 由于 机 器 学 习 算法其数据密集型与计算密集型等的特性使得它处理这些问 题 时 的 性 能 较 低 而 且 耗 能 更 高 然 而 由 多构成的云计算平台的数据通信开销也成为了阻碍 效 率 提 升 的 绊 脚 石而 在处 理 数 据 关 联程度比较高的数据时无法获得较好的计算效率 并伴随着较 大 的 功 耗 限于 其 开 发 难 度 和 开 发周期等问题在加速器设计的早期无法快速开展 故因此利用 来设计用于机器学习算法的加速器体系结构并以此构建整套开发体系是一个逐渐发力的科研方向表 不同硬件的开发情况对比硬件类型 理论性能 平均能耗 软件支持 编程难度 开 发 周 期低 中 好 容 易 短高 高 好 中 等 短中 高 少 容 易 中高 低 少 难 较 长高 低 少 难 长本文 主 要 针 对 利 用 设计 专 用 于 机 器 学习算法加速器领域进行了分析与总结 本 文 第 节主要介绍相关的 背 景 知 识 对相关机器学习算法做概述第 节当前发展现状中则主要对目前各种加速器和加速手段 进 行 介 绍 并对可能的加速着眼点进行列举第 节硬件加速器的设计则主要对相关的机器学习硬件加速器的结构设计和实现进行简单的分类和总结最后 的 第 节展望和总结则是在基于全文的情况下对硬件加速机器学习算法这个领域进行归纳总结 并简要提出了潜在的研究方向及发展趋势期 王 超 等 基 于 的机器学习硬件加速研究进展背景介绍机器学习概述机器学习关注如何利用数据来构造出相应的预测模型来对未知 的 数 据 进 行 预 测机器学习的主要任务就是从 某 类 函 数 模 型 中 选 出 一 种 函 数 并根据数据集进行学习使得该函数能够较为准确的将输入域 映射到输 出 域 中即 输入 域往往代表多组数据构成 的 集 合 输 出 域 则代 表 每组数据对应的标识或结果根 据 用 来 学 习 的 数 据 类 型 不 同机 器 学 习 算 法可以分为监督学习和非监督学习两类例如决策树随机森林支持向量机等监督类学习和 与隐马尔可夫模型 等 非 监 督 学 习同时又可分为连续和离散两类例 如 常 见 的 线 性 回 归 等连 续 数据学习和 朴素贝叶斯等离散数据学习在 监 督 学 习 算 法 中 用 于 训 练 的 数 据 集 中 的 每组训练数据都有 一 个 明 确 的 标 识 或 结 果 算 法 则 利用训练数据构造 出 一 个 函 数 而该 函 数 将用 来对未知标识或结 果 的 数 据 来 做 预 测 在 非 监 督 学 习中已有的输入数据集合的标识或结果往往是未知的大多数的非监督学习算法都假定数据是服从某种联合概率分布 算法利用该假定来寻找出最贴合输入训练数据的函数监督 学 习 主 要 分 为 分 类 和 回 归 两 类 任 务 在 分类中函 数 的输 出 域 由一 组 离 散 的 值 构 成 在回归 中函 数 的输 出 域 则是 连 续 的 实 数 而 非监督学习则主要 进 行 数 据 聚 类数据聚类就是把没有分类的数据集 上 的 数 据 按 照 距 离 相 似 度 等 属 性来归为若干类监督学习和非监督 学 习 都 需 要 学 习和推理 这两 个 阶 段 学 习 是 指 确 定 预 测函数 的过程推理则指根 据 上的 某 一 个 实 例来计算 结果的过程因此对于机器学 习 算 法我们可以根据具体的应用场景来选择具体针对学习过程或是推理过程来进行加速此外如果根据算法本身的特性来分 机器学习算法还可以分 为 批 量 学 习 和在 线学习 两种 形 式批 量 学 习 是 指 传统意义上的学习方式 即先给出一个训练集 训练出后再将 运用于测试数据而在线学习则 不 同 于传统的学习方式 它是一种边学习边对数据进行预测的过程因此在线学习往往对实时性要求较高对在线学习算法进行加速往往比对批量学习算法进行加速显得更加重要介绍现场 可 编 程 门 阵 列即 是在 经 历 了等可编程硬件后发展出的硬件设备一开始是作为 领域中的 一 种 半 定 制 电 路 芯 片而产生的由于其克服了定制电路无法快速修改的不足而且也避免了以前可编程器件门电路的缺点因此采用 来快速搭建领域专用的计算系统成为芯片设计和验证平台的主要技术手段对于 来说可重 构 性 是 其 能 实 现 复 杂 逻辑的关 键 特 性 与 中集成的固定逻辑不同利用了基于 的查 找 表 来实 现硬件逻辑的配置 芯片主要由 个部分组 成分别是可 编 程 输 入 输 出 单 元 可配 置 逻 辑 快数字时钟管理 模 块 嵌入 式 块互联互通资源和底层内嵌功能单元以及专用硬核其中查 找 表 就是 的一 部 分而 的工作原理是利用已经编译过的硬件程序控制内部逻辑单元和各模块间与输入输出单元中的互联形式实现不同的逻辑功能由于 具备 快 速 定 制 性 和 可 重 构 等 特 性使其在目前越来越复杂的计算机体系结构设计特别是面向领域的专用平台设计与实现中崭露头角 通 过基于 软硬 件 平 台 重 新 编 译 和 仿 真研 究 人 员对机器学习算法的加速器进行快速实现和验证大大提高了加速 器 的 设 计 效 率 从 而 使 得 基 于 的机器学习加速器成为目前的研究热点之一当前发展现状目前的加速手段从研 究 者 的 角 度 来 看 目 前 对 机 器 学 习 算 法 进行加速的手段可以大致分为三大类即 软 件 层 次 上的优化机 器 学 习 算 法 的 并 行 化 和 硬 件 层 次 上 的改进软件层次上的优化主要包括的是对机器学习算法本身进行优化 改 进 对算法运行时库环境等的优化改进等对机器学习算法本身进行改进是指对某个算法提出新的数学模型等来提高算法的执行速度如针对 算法 的 方法 的 提 出 等 对 算法运行时库环境的优化则指的是对算法运行时处于的软件环境如运行时库操作系统等进行进一步地计 算 机 学 报 年优化以提升执行机器学习算法的效率并行化机器学习算法则是目前最普遍的加速手段它主要是对机器学习算法进行并行化与分布式处理使得算法本身能在特定的硬件并行平台上实现任务级并行和数 据 级 并 行 等很多的机器学习算法能够相对简单地进行并行化处理并且能够很好运行在多核 多 节 点 的 硬 件 平 台 上 如 云 计 算 平 台 或 者等硬件层次上的改进则主要是指针对机器学习算法的特征来改进现有的处理器体系结构使其能够高效快速地执行机器学习 算 法 然 而 目 前 的 通 用的体系结构并不 适 合 于 处 理 机 器 学 习 问 题 其 主 要原因是机器学习算 法 自 身 的 个 特 征即 数 据 密 集型与计算密集型 的 结 合 流式数据传输与迭代计算和 较 低 的 分 支 指 令 等 机器 学 习 算 法 自 身 是 数 据密集型与计算密 集 型 的 综 合这使得机器学习算法往往既需要频繁访存来获取大量数据又需要对数据进行高强 度 大 规 模 的 复 杂 运 算 而 的访 存 效率以及计算能力往往无法满足大规模机器学习应用的要求机器学习算法一般以流的方式顺序读入数据并进行处理并且往往有着以整个数据集为单位的迭代计算即某项数据一次处理完成后往往需要整个数据集处理完成一次后才能进行下一次计算这些 都 会 导 致 基 于 策略 的的比率很高引起整个算法执行效率较低 而分支指令在机器学习算 法 中 往 往 所 占 比 例 较 低 这 反 映 出整个算法过程相对而言具备顺序执行的特征 同 时也说明 中分支预测部件利用率不足目前的加速平台目 前 对 于 机 器 学 习 算 法 的 加 速 平 台 主 要 分 为类它 们 分 别 是 云 计 算 平 台 通 用 图 形 处 理 器平台 平台 以 及 综 合 了 上 述种平台特性的异构计算平台这些平台往往表现出了不同的并行 粒 度 并且适用于不同的机器学习问题云 计 算 平 台 是 目 前 普 及 最 广 的 平 台 利 用 云 计算平台可以比较方便的对数据进行分布式处理和并行化机器学习算 法 云计算平台一般都由大量同构的基于 的单 节 点 服 务 器 构 成多 个 节 点 间 互相配合协同工作并且可以对问题采用任务级并行与数据级并行的 手 段 云计算平台编程模型大体上可以分为基于 编程 模 型 和 基 于 图 计 算编程 模 型 种采 用 编程 模 型 的 程 序可以抽象成 和 两个 阶 段这 种 模 型 比较适合处理依赖程度比较低的数据采 用 图 计 算 编程模型的程序可以抽象成基于一个图的计算 每 个图的节点都根据相邻边和节点的信息进行计算 这种模 型 比 较 适 合 于 数 据 相 互 依 赖 程 度 比 较 高 的情况 同时还 有 另 一 种 由 编程 模 型发展出 来 的 计 算 引 擎 它是 由所开 源 的 类 的通 用并行 框 架 该框 架 拥 有 所具有的 优 点 同 时 不 同 于 模型 的将任务的中间输出结果保存在内存中来降低读写文件系统 需 求因 此 能更 好 地 适 用 于数据挖掘与机器学习等需要迭代的算法通用图形处理器由于其自身的特殊结构使得它能够很好的对数据进行数据级并行处理 通 用 处 理器内部往往由多个 构成每个 由多个 组成多个 共享一个全局内存 同一 个 的共享多个寄 存 器 和 共 享 内 存本 质 上 而 言相当于一个众核 的 架 构 并且其不同层次的内存器件并不像 那样 自 动 维 护 而 是 由 程 序 员 来 指定因此 能够很好地对问题进行数据级并行并且 和 等编 程 规 范的 提 出 和 实 现 使 得 针 对 编程 变 得 简 单 快 捷因此 也成 为 了 目 前 也 较 为 广 泛 使 用 的 加 速 并行平台与 目前主要用 于 针 对 特 定 的 算 法和问题 本 身 去 设 计 专 用 的 硬 件 加 速 器 件 由 于 其定制 的 原 因 往 往 能 获 得 更 好 的 性 能 和 功 耗 由 于通常是一个用于对设计出的加速器体系结构进行验证仿真的中间器件 当验证完成后即可实现专门的 加速 器 芯 片 而 本身 由 于 其 灵活的可编程与可重构的特性使得它也可以充当一个专门的加速器件 对于不同的问题来进行最贴合的重构使得 有着很大的加速潜力 但 是与 平台由于设计难度和 编 程 门 槛 较 高 等 因 素使得其尚不能广 泛 普 及 它们主要存在于嵌入式设备云数据中心各类仪器以及大型通信设备中或者特定领域的应用当中此外还 有 一 些 异 构 计 算 平 台 综合 利 用 了和 并且往往也采用了由异构计算节点构成的集 群 的 方 案 不过这种异构计算平台还存在如何充分利用计算资源以及怎样为用户提供期 王 超 等 基 于 的机器学习硬件加速研究进展简洁的编程模型等的问题 目前尚不 成 熟 仍处于研究阶段现有的一些异构计算平台的原型有和 等同时各个相关企业也提出了很多的商用机器学习算法加速平台 比如 阿 里 巴 巴 的 等计算平台是阿里 巴 巴 公 司 于 年正式对外提供服务的计算平台通过利 用 服务 将 用 户 的 算 法快速构建并通过 核心 引 擎 部 分 将 算 法 描 述 高效地编译优化调度成为底层硬件需要执行的指令代码最后利用硬件层中 或人 工 智能芯片 等异构资源经过软件以及调度把合适的图计算模型进 行 有 效 的 分 割将不同的计算部署到比较合适的硬 件 结 构 上 从而实现高效的计算能力最新的 版本增加了深度学习编译器以通 用 化平台化的 方 式 来 解 决 上 层 与底 层 硬 件 计 算单元之间高效映射的问 题 其利 用 一 种 基 于 沿 图的跨度关键路径的分层节点结构的新型深度融合算法 使用 关 键 路 径 缩 减 作 为 驱 动 启 发 式 不 仅考虑 融合 变 换而 且 考 虑 发 生在 同 一 层 中 的 细 粒 度 操 作 显 著 减 少 硬 件 访 存 开销 以 及 硬 件 框 架 层 面 的 调 度 执 行 开 销 并 且 引 入了 更 广 阔 的 全 局 优 化 空 间 从 而 完 成 了 算 法 加 速的 目 的衡量加速效果的指标衡量加速平台加速效果可以基于很多不同的指标这些指标往往反映了加速平台各个不同的方面现列举常见的一 些 指 标 即 加 速 比 效 率可 扩 放 性和资源利用率加速比 是指程序的串行版本运行的时间与程序的并 行 版 本 运 行 的 时 间 的 比 值 只 有 在比值大于 的时 候对程序进行并行化处理才有意义而且比值越大就说明了对程序的并行化有着较高的加速效果效率 一般 指 程 序 的 加 速 比 与 处 理单元数量的比值 它通常反映了多个处理单元的利用率的情况效率越高多个处理单元的利用率就比较高可扩展性 则是 描 述 了 程 序 随 着 处理单元数量的增 加 效 率 值 的 波 动 情 况 而 可 扩 放 性通常和效率有一定关联 效率越高程序的可扩放性越好反之亦然资源利用率则主要 针 对 利 用 或者的硬 件 平 台 进 行 加 速 的 情 况 在 利 用 或者等平台 设 计 硬 件 加 速 器 结 构 时 芯 片 能 够 提供的资源一般是 很 有 限 的 因此在设计时不能一味的通过增加硬件资源来提升性能而是需要在资源和性能间进行综合考虑来寻求平衡加速算法的着眼点加速机器学习算法的执行需要有针对性的对算法进行分析进而确定需要加速的算法具体部分机器学习算法由于其兼容了数据密集型和计算密集型的特性因此对机器学习算法的加速需要兼顾考虑加速 数 据 通 信 传 输 以 及 加 速 算 法 计 算 执 行 两 个方面根据现有的机器学习算法加速的相关文献总结大体可 以 分 为 个 方 面即 加 速 算 法 的 计 算 核心抽象算法的共性特征 并行化机器学习算法以及优化机器学习算法的数据通信传输加 速 算 法 的 计算核心与并行化机器学习算法属于加速算法计算执行的维度优化算法的数据通信传输则属于加速数据通信传输的范 畴 而抽象算法的共性特征并对特征加速则都包含这二方面的内容上 述 个 着 眼 点之间联系比较紧 密 需要在设计专用加速器时进行协同考虑例如优化数据通信传输也是抽象并加速机器学习算法共性特征的一个特例而 并 行 化 机 器学习算法可以首先提取算法的计算核心模块 而 后有针对性地进行 并 行 化 处 理在算法的分析和抽象过程中提取出的算法的共性特征未必是算法的计算核心模块根据 定律针 对 非 计 算 核 心 的共性特征来进行 加 速 最终获得的系统加速比往往性能提升效果不明显 总体来说基于上述 个着眼点可以帮助并指导研究人员展开对机器学习算法的分析和加速器的硬件设计工作加速算法计算核心由 于 机 器 学 习 算 法 种 类 多 样在执行过程中算法的特征明显其中核心计算单元对整个算法的执行时间的影响的比重也有较大的差异性 需 要 重 点分析算法的计算核心部分通常来说算法的计 算 核 心 是指 算 法最耗时间的那部分计算过程 而 加 速 则能 够显著缩短 整 个 算 法 的 执 行 时 间 因 此 对 于我们既可以利用如 的多个计算单元对不 同的数据进行并行计算 也 可 以 利 用 对算 法 的固化到多个计算单元上来加快执行 表 列举了 种常见机器学习算法最耗时的前 个机器学习算法在执行过程中算法的不同部分对整个算法的执行时间影响的比重各不相同计 算 机 学 报 年表 各机器学习算法计算核心抽象算法共性特征虽 然 目 前 机 器 学 习 算 法 种 类 多 样 但 同 时 许 多机器学习算法都 表 现 出 一 些 共 性 的 特 征 针 对 这 些共性特征进行加速既能做到较好的加速效果又能表现出相对通用的特性 机器 学 习 算 法 的 共 性 特 征可以大致概括为 个方面即大规模线性代数运算同 步异 步 迭 代 运 算 算 法 加 乘 化 常 用 激 励 函 数 的使用和基于图模型的抽象大规模线性代数运算指的是大部分的机器学习算法往往都涉及了大量的大规模线性代数运算 加速这些 运 算 的 执 行 能 提 升 整 个 算 法 的 性 能 文 献设计出了一个加快矩阵相乘运算的加速器件并在多种机器学习算法上取得了较好的加速效果同步异步迭代运算是指很多机器学习算法需要在算法中反复对数据进行同步 异步迭代对迭代算法进行优化能够显著 改 善 算 法 性 能文 献 设计 出了一个基于 的异步 迭 代 加 速 器 结 构 利 用 该加速器可以加速 多 种 机 器 学 习 算 法 的 执 行 而 对 于算法中显式需要 迭 代 的 也可以通过在加速器的计算核心中加入隐层单元储存隐层数据从而进行快速迭 代 计 算 算法加乘化是由文献 提出主要是指一部分机器学习算法在学习或推理过程中通常表示成相乘 累加的 形 式每次相乘对应的数据的依赖程度 一 般 较 低 因此对于这种情况可以方便的对算法进 行 并 行 化 处 理目前是各类加速器研究的优化手段之一激励函数是多种机器学习算法在执行至某特定步骤时均会采用的辅助函数 如 函数 等针对这些常用激励函数进行加速可以取得一定的加速效果基于图模型的 抽 象 由 文 献 提出表 明 了 图计算模型能够较好有效地处理那些数据间依赖程度较高的数据挖掘算法 因此可以对将数据抽象为图然后进行基于图的顶点计算的这一过程进行加速而且还有团队利用图的跨度的分层节点结构 从 而优化计算流程进行加速需要注意的是正如前面所提到的 从多个算法中抽象出来的共性特征可能属于这些算法的计算核心的某部分也可 能 不 是 因 此如果抽象出的特征在很多算法中都 是 计 算 核 心那么我们去加速这个特征的执行就相对收益较大 而反之如果抽象的特征在大多数的算 法 中 耗 时 较 短则针对该特征去设计加速器结构最终并不能获得可观的系统加速比机器学习算法并行化对机器学习算法并行化是目前常用的加速手段利用任 务 级 并 行 或 者 数 据 级 并 行 或 者 将 二 者混合可以对绝大多数的机器学习算法进行并行处理目前 并 行 化 机 器 学 习 算 法 的 平 台 主 要 是 云 计算 平 台通 用 图 形 处 理 器 以 及 平台 三大类利用云计算平台并行主要利用了任务级并行和数 据 级 并 行 并 且 并 行 粒 度 相 对 较 粗 例 如模型 中 的 和 过程 即 可 并 行 执行 而图计算模型中没有 依 赖 关 系 的 顶 点 间 也 可进行并行执行 利用 平台 并 行 则 主 要 利用了数据 级 并 行 的 方 式并 行 粒 度 相 对 较 细利 用平台并行则主要取决于设计出的加速器体系结构的不同 既可以利用任务级并行 也可以利用数据级 并 行 另外在硬件加速器中一般也都会采用了管道流水线的技术来增加吞吐率 而期 王 超 等 基 于 的机器学习硬件加速研究进展在文献 中则根据神经网络模型的上下层参数动态选择并行方式 有效减少了训练时数据通信带来的开销成 本同 时 加速 器 则 是 对 神 经网络参数进 行 了 预 先 划 分根 据 输 入 数 据 的 范围动态调节计算 核 心 的 尺 寸 参 数充分利用了计算硬件的并行性优化数据通信传输由于机器学习算法是兼具计算密集型和数据密集型的特性所以单纯对计算密集型的部分进行加速是远远不够的 算法的访存等数据通信往往会成为提升性能的瓶 颈 而针对机器学习算法优化数据通信传输以及访存模型等是属于针对机器学习算法数据密集型的部分的加速入手点目前现有的三种加速平台都不同程度上面临着数据通信等的问题 对于云计算平台来说 虽然其提供了大规模的计 算 和 存 储 资 源然而在云平台上对某些机器学习算 法 进 行 并 行 加 速其效果往往不甚理想通常原因在于数据通信带来的巨大开销云计算平台利用分布式文件系统对数据进行存储 单 个节点间通过以太 网 连 接 如果算法需要的数据分布到多个节点中或者算法需要较频繁存取数据 由此带来的数据传输 通 信 开 销 就 会 比 较 可 观 从 而 降 低整体的加速 性 能 对于通用图形处理器利用它来加速机器学习算法同样也需要考虑数据传输问题程序所需要的数据往往存放在节点中的磁盘上经由内存传输到了 的全局内存中这个过程会占据大量的 时 间 开 销另 外 的内部也存在寄 存 器 共 享 内 存 等不 同 层 次的内存模型因 此 利 用 并行 化 算 法 时 需 要着重考虑这些不 同 的 存 储 部 件 的 使 用 方 式 而 基 于与 设计专用加速 器 往 往 也 面 临 着 数 据从 内存传 输 到 内存 的 过 程 并 且 由 于内部同时 集 成 了 不 同 频 率 的 存 储 器 件 因 此设计者在设计时需要着重考虑加速器存储模块的设计如针对迭代计算使用的中间值设计相应的缓存单元等为了降低存储的代价 可以进行缓存的重新划分即通过将缓存按照计算比例分为输入缓存输出缓存和内部参 数 同时引入多缓存机制来保证数据通信时间和计 算 时 间 的 流 水 化从而加速了整个算法的计算 速 度 而 则是 按 照 数据复用程度分为冷缓存区 热缓存区和输出缓存区主要思路是降低 高 复 用 数 据 的 通 信 代 价 从 而 减 少整个计算过程时间硬件加速器设计围绕目前基于各种硬件的机器学习加速器设计较多本节重点 介 绍 和 实现 的 相 关 加速器工作基于各个加速器的特性 本文将近年来的相关文献分为四类 分别是针对特定问题的加速器针对特定算法的 加 速 器 针对算法的共性特征的加速器以及利用硬件模版的通用加速器框架 这 四 大类遵循了一个从特殊到一般的过程并 且 设 计 难 度呈递增趋势对于前面两类问题设计加速器目前较为普遍并且设计难度也相对较小 而对于后两类尤其是最后 一 类 设 计 难 度 相 对 较 大尚 处 于 研 究 阶段并没有得到大规模普及从 研 究 的 角 度 来 看 本 文 的 观 点 是 体 系 结 构 设计人员应该以设计出针对机器学习算法通用的加速器体系结构为最 高 目 标 而不仅仅局限于某个特定的应用场景或机 器 学 习 算 法以此来进一步推动该领域的发展针对特定问题设计加速器针对特定问题设计加速器是目前硬件加速器应用的最广泛的领 域 专门针对某一特定问题去设计加速器不仅能够很好地贴合问题的需要 并 且 设 计难度也相对较小 针对特定问题设计加速器往往加速的是机器学习算法的推理过程而不是学习过程为了加 速 解 决 问题一种专用的加速器孕育而生问题 是 指 根 据 一 个 连接的建 立 起 的 传 输 流 的 若 干 个 数 据 包 来 判 断 这 个连接 是由哪个应用程序发起的该 问 题所使用的算法就是常见的 决策 树 算 法 为 了完成加速目的该团队基于问题特性设计了一种加速器结构整体加速器结构分两部分 一是离散化模块 二是分类模块离散化模块对输入数据进行预处理而分类模块则是对输入数据进行分类决策 数 据 的 属性向量被输入至 离 散 化 模 块经过每一级离散化处理单元数据对应的某个属性值就被离散化然后数据被送入分类模块 经过每一级数据就在决策树上向下走一层一个分类单元的本地内存中保存了对应决策树中这一层的所有中间 叶子结点下一层分类单元接收到参数 数据属性集中间结点地址 然后找到对应中间结点继续分类该论文设计出的特定加速器结构还存在的一些计 算 机 学 报 年不足在对于分类 模 块 决 策 树 的 每 一 层 由 一 个负责处理由于每层节点都不一样 势必会导致计算资源的不平衡因此当输入数据规模较大时 该加速器件往往面临性 能 瓶 颈 对于计算资源的不平衡问题可以采用负载平衡感知的剪枝方法 以为例通过利用该剪枝策略可以将 模型 尺 寸压缩 倍同时使用单独的调度器将模型编码分割到多 个 来完成并行计算 以语 音 识 别 为 典 型 应用这种方法能够相对 和 等实 现 方 式 大幅提升性能和能效针对特定算法设计加速器针对某一个机器学习算法设计的加速器是目前较为常见的应用 领 域 针对特定机器学习算法设计出来的加速器在 应 用 于 某 个 特 定 问 题 时 往 往 只 需要进行特定参数的配置或是一些小幅度的改动就可以较好地贴合特定的问题算法 算法是基于核的机器学习算法中广泛应用的 算 法 目前大部分的论文主要针对算法推理过程来设计加速器件在 算法的推理过程中对于一个需要分类的数据 它需要与所有的支持向量 进 行 相 乘 累 加 得 到 中 间 值 接 着 中间值会送入核函数进行处理从而得到最后的结果因此对于 的推 理 过 程 我们可以针对相乘累加部分或是针对核函数执行来进行加速器的设计首先对于 算法推 理 过 程 的 加 速 可 以 只对待分类向量与支持向量进行相乘累加的部分进行加速而核函数的计 算 仍 处 于 中执 行以 文 献为例在其加速器体系结构的设计中 上集成 了 多 个 每个由多 个 构成每 个由多 个 构成每 个 是一 个 向量处理单元该处理单元能够处理两个向量间的点乘运算在加速器件执行的过程中 规模大的矩阵以数据流的形式传 入 规模小的矩阵则存放在片内存储器上每个 中存放的是规模小的矩阵的某一列此外该加速器件还有着更细化的点乘操作即每次 向 量 点 乘 操 作 划 分 为 多 个 点乘的大小需要进行合理调整从而使得与 间数 据 传 输 不 会 成 为 瓶 颈 但 由 于 其 设 计出的加速器结构并没有同时对核函数的计算过程进行加速所以整理的系统加速比还有待进一步提升另外也有团队设计了专门的计算单元来加速核函数的计算以支 持 加 速 核 函 数 计 算 并 设 计 了 新 的加速 器 结 构 以级 联 加速 器 为 例 每 个的分类模型和分类能力有较大差异与机器 学习中的 思想 类 似 级 联 加速 器 由 多 个弱分类 器 组 合 构 成 了 一 个 强 分 类 器对 于 某 一 级如果它不能较为准确地判断出输入值的类型则将其交给下一级功能更为强大的分类器处理这种方法最终呈现了一个二级分类器 其 中 第 一 级分类器能够较好地分类出离超平面较远的点 由 于其采用的核函数较简单 运行起来速度较快 而对于第二级分类器能够分类出处于超平面边缘的点即第一级分类器不能判断的点 采用的核函数可能较为复杂运行起来速度相对稍慢算法 的 广 泛 应 用 使 得 加 速 算法 前景广阔对于 算法的 推 理 过 程 来 说 相 关 工 作包括专用加速器等相对已经比较完善而对于算法的训 练 过 程 来 说 目 前 加 速 器 相 对 比 较 少 此外在 算法的推理过 程 中 数 据 在 分 类 前 往 往需要正交化和规则化等预处理过程该 预 处 理 过 程如果在 上执 行 效 率 较 低 并 且 占 用 时 间 比 重也较高因此加速预处理过程的执行也是一个值得研究的 加速器改进方向算法 算法 是 处 理 关 联 分 析 的一个重要的算法 算法主要 用 于 发 现 事 物 之间的关联联系它通过统计事物间相互出现的频率次数从而获得关联度并得到各项目间关系通过分析 算法 特 性 针对该算法前半段 获 取 频 繁 项 集 过 程 的 加 速 可 以 有 效 加 速 算 法 的运 行 该工 作 将 算法 划 分 为与三个部分该加速器结构能够对于这三个阶段都能重 复 利 用 并且也表现出优异的加速效果其 中部分用于生成 候 选 的 频繁项 集 部分 用 于 对 刚 刚 生 成的候选频繁项集做预处理 去掉任意一个属性 检验剩下的 项集处在已 经 生 成 好 的 频繁 项 集 的 集合中 部分 则 用 于 对 已 经 通 过预校 验 的 候选 频 繁 项 集 来 做 统 计 并 计 算候选频繁项集在整个数据集中出现的频率由于 算法的计算原理类似一种数据统计的过程需求数据预先应该以字典序的形式进行排列因此对整体数据集进行字典序排序这一预处理过程也应是一个潜在的加速点决策树算法决策 树 算 法 是 较 为 常 用 的 机 器 学习树模型分为学习和推理的两个阶段 而决策树算法学习过程 的 计 算 核 心 是 计 算 系数 或 是 熵 增期 王 超 等 基 于 的机器学习硬件加速研究进展益因子目前对决策树算法的在学习和推理两个阶段都 有 着 相 关 研 究 如 在 决策 树 算 法 的 学 习过程加速 系数 计 算 的 加 速 器 结 构 每个 连续属性 系数 计 算 可 以 通 过 中自 己 定 义的 来完成之后通过比较单元层次连接所有的 结果并 选 取 出 最 小 系数在 这 个 工作的基础上近年来对于决策树的加速器结构出现了较大进展例如将整个决策树学习过程而并非其中的某个部分置 于 加 速 器 结 构 中 执 行 从 而 达 到 减少数据间的通信延迟的目的 此外大部分的决策树算法的输入数据 通 常 是 离 散 的因此还可以针对输入数据离散化这一预处理过程进行加速算法 算法 是 一 种 常 见 的 聚类算法虽然该算法的计算核心在于求取每个点与各个质心的距离这一过程 但是将 整 个 算法而不仅仅 是 计 算 核 心 固 化 到 实现 的 加 速器结构将使得 加 速 效 果 进 一 步 提 升 通过 将 整体算法上分 为 了 个 模 块和从而让 整 个 算法逻辑映射到加速器上其中 模块 接 收 从 片 上存储器或者是片 外 存 储 器 发 来 的 数 据 计 算 每 一 个点到所有类 的 距 离 该 模 块 单元 的 单 元 数 量 与类的数量对 应 每 个 单元 计 算 一 个 点 到 某 个 类的距离则利用并行性同时计算完所有需要计算的距 离 数 据 而模块接受 从 发来 的 距离 数 据 并 从 中 输 出 最 小 的 距 离 对 应 的 那 个 类模块接收上一个模块产生出的最短距离 对 应 的 类 把当前数据点的特征累加到对应类的累加器中 并增加对应类计数器值 每个类都附带了一 个 累 加 器 和 计 数 器 而 当 所 有 数 据点对应的类都累 加 后 该模块会将数据传送至下一个模 块 模块 则 是由若干个除法单 元 以 流 水 线 化 的 方 式 组 成 通 过 把上个模块输出的每个类数据各个特征累计的值与数据个数计数值相 除 从而计算每个类在下一轮新质心的数据通过一系列的模块化和流水线化将整个算法进行拆分从而达到加速的效果贝叶斯图算法 贝 叶 斯 图 算 法 主 要 包 含 了 贝 叶斯信念网马尔科夫随机场等图模型 该算法利用图计算模型描述了 一 种 变 量 间 的 相 互 关 系 针 对 贝 叶斯信念网模型进行求解的信念传播算法等是基于贝叶斯图的机器学习算法的常见的计算核心 由 于 贝叶斯图算法的特 征 问 题 对于加速该种类型的算法可以从有向 无 环 图 的 结 构 入 手 本质 上 来 说 该结构是用来解决 拓 扑 排 序 问 题而并不是真正地解决贝叶斯信念网 等 的 问 题 研究人员为此设计的加速器包含多个处 理 单 元 并且每个处理单元采用了级 级的超深度流水线来加大吞吐率 所有处理单元通过交叉开关与多个内存模块相连 该 结 构依赖于对问题进行静态分析从而获得运行策略 因此避免了数据相 关 等 问 题 这样的做法虽然可以加速贝叶斯图算法 但是依然存在着缺点和不足 例如只加速了拓扑排 序 部 分 但对算法的其它部分涉及较少对基于贝叶斯图的机器学习算法来说目前相关工作较少其具体实现由于图模型的限制因素使得并行化等加速手段相对来说比较困难 仍 需 进 一步研究神经网络算法 深 度 学 习 目 前 是 机 器 学 习 领 域炙手可热的研究 方 向 而针对于深度学习中神经网络算法的硬件加速器也是层出不穷其 中 代 表 性 的工 作 是 中 科 院 计 算 所 研 发 的 硬件 加 速 芯 片通过 将 整 个 神 经 网 络 的 计 算 部 分 分 为 三部乘法单元加法树和激活单元并映射到硬件逻辑上从而完 成 对 整 个 计 算 部 分 的 硬 件 加 速 对于神经网络计算流程的软件优化可 采 用 循 环 平 铺或循 环 分 块 的方法优化其循环过程 而且 也 可通 过 分 析 其 计 算 过 程 中 各 个 矩 阵 的 相 互 独 立 关 系和 多 缓 存 机 制 优 化 了 缓 存 管 理 或者 是 利 用 模型 传 播 路 径 提 高 数 据 复 用 率 或权 重 复 用 率以获 得 性 能 更 为 优 越 的 基 于 的神 经 网 络 硬件 加 速 器除 了 软 件 的 优 化 之 外 硬 件 效 能 的 提 升 往 往 也更为直 观比 如 新 兴 的 金 属 氧 化 物 电 阻 随 机 存 取存储 器 就带来存储方式的新变化通 过交叉 阵 列 结 构 可以 更 高 效 地 执 行 矩 阵向量乘法并由此设计出了一种新的 架构并且得益 于 硬 件 的 改 变 通 过 实 验 可 以观测到相较于之前的各种神经网络硬件加速器得到了显著的性能提升和节能效果针对算法共性设计加速器上 述 两 种 加 速 器 的 设 计 手 段 都 相 对 专 用 设 计出的加速器往往只能应用与特定问题或特定算法中为了扩大加速器的应用范文 还可以针对算法的共性特征来设计 加 速 器 从而实现一类机器学习算法的加速执行计 算 机 学 报 年通常 来 说可 以 从 两 个 方 面 来 利 用 共 性 特 征 设计加速器一是根据之前对机器学 习算法的分类来寻找某一类机器学习算法的共性特征设计加速器二是不局限于某 类 机 器 学 习 算 法而是在整个机器学习算法中寻找 某 些 共 性 特 征通过对现有文献进行总结目前提取出的共性特征有线性代数运算迭代计算以及简化算法访存模型这 种线性代数运算大部分的机器学习算法在学习或者推理的过程中都涉及到了大量的大规模的线性代数运算 这 些线性代数运算一般来说都需要占用大量的计算资源因此往往也是算法的计算核心 因此针对涉及到的线性代数运算进行加速能够有效地提升算法整体的性能其中很多机器学习算法中间步骤都能表示为矩阵向量乘积运算的形式 并且当中间步骤运算完成产生中间数 据 后 最终步骤往往是相对简单地对中间数据进行排名 寻 找 最 大最 小 值聚 合 等 归约操作 如表 所 描 述 的 种 算 法 为 例 这 种算法均能表示为这种形式 其中一项代表性的工作硬件加 速 器 就 是 针 对 矩 阵向 量 乘 积 运 算的过程 来 进 行 加 速 的 利用 矩 阵向 量乘积运算的特征 处理计算中间数据并对它们进行归约操作对 于 规 模 大 的 不 易 变 的 矩 阵 它 往 往 存放在片外内存中 数据以 流 的 形 式 传 进 给对于规 模 小 的 易 变 的 矩 阵 它 就 被 划 分 并 存 放 着的多个 计 算 单 元 中 每 个 是一 个 向 量计算 单 元能 够 在 一 个 进行 乘 加 运 算 每 个都有 一 个 存放 规 模 小 的 矩 阵 的列 个 构成 了 一 条 链 每 个 有 条链对于 每 条 链 从左 传 到 右 从右 传 到左每条链 的 都连 接 着 一 个它能够对每条链的输出结果 进 行 排 名最 大最 小聚 合 等 归 约 操 作并 存 放 符 合 归 约 条 件 的结果表 种典型机器学习算法的计算共性迭代运算除 了 线 性 代 数 运 算 反 复 的 迭 代 计 算 也 是 机 器学习算法显著的 一 个 共 性 特 征大量的机器学习算法都需要进行反 复 的 迭 代 计 算直到得到最终收敛结果但是迭代的次数往往无从得知 因此简单地用数据流模型去设计加速器是远远不够的 此外迭代计算还分为了同步迭代计算与异步迭代计算两种情况同步迭代是指对一个数据的下一次迭代需要等到整体数据 迭 代 过 一 轮 之 后 才 能 执 行 异 步 迭代则指对数据的下一次迭代可以立即执行 无 需 等待整体数据完成迭代过程迭代计算相较线性代数运算而言其 可 加 速的 具 体 功 能 并 不 直 观 因 为 对 于 不 同 的 算 法其 利用的迭代公式通常也是不同的 但 是 对 于 迭 代 计算还是有一些共性特征可以进行优化加速的 比如针对迭代计算产生中间值的存储进行优化和改进或者是对迭代数据进行分配调度的方式进行改进等举例来说近年来的一个代表性工作 的期 王 超 等 基 于 的机器学习硬件加速研究进展加速器结构 就 针 对 异 步 迭 代 的 过 程 进 行 加 速 该加速器结构将所有异步迭代计算分为了两个步骤即一个节点采集与该节点有边联系的其它节点发来的消息 并把该消息存放在本地变量中 节点 使 用 和原 有 的 权 值 来求出新的权值 之后 把 节 点 权 值 改 变 量 应用 一 个函 数 得 到 一 个 值 并 把 该 值 发 送 到 相 邻 节 点 最 后 把重置 为 零该 系 统 由 个 充当 块充当 基于 的 用于 进 行的任务分发和检查停止条件等 基于 的多个 并行 运 行 并 通 过 以 太 网 相 连 接每 个除 外还 有 一 个辅助 从分 布 式 文 件 系统 中 读 写 信 息 而对于同步迭代目前常见的做法则 是 在 加 速 器 的 计 算 单 元 中 加 入 中 间 存 储 单 元 从而 实 现 节 约 多 次 迭 代 的 数 据 传 输 和 计 算 时 间损 耗简化算法的访存模型前面的两个共 性 特 征 主 要 是 对 机 器 学 习 算 法 计算密集型的部分进行加速 而对数据密集型的部分进行优化也能够整体提升算法的执行效率 其实无论在云计算平台还是 数据通信传输往往都会成为算法性能进一步提升的一个瓶颈 鉴于大量的机器学习算法的访存模型都比较类似 因此可以针对这些数据通信传输与访存的共性特征来设计加速器从而达到加速一大类的机器学习算法的目的 此种访存结构能够满足大部分机器学习算法的需求 并且能够降低开发者对加速器访存模块的开发难度 在设计时开发者只需 要 在 核 函 数 的 中声 明 出 访 存接口模块相当于黑盒 接下来的数据读写操作都通过该模块完成其本质是简化了开发者在设计加速器访存模块时的难度而不是专门的对机器学习算法的数据通信传输部分进行的优化 从而获得一定的加速效果并降低了加速器的设计难度另外一类 加 速 器 如 的做 法 是 先分 析 各 个 算 法 的 数 据 热 度 提 取 出 关 键 的 计 算 原语 并 对 算 法 循 环 进 行 展 开 处 理 来 优 化 其 算 法 的 内存 带 宽 需 求 因此 此 类 工 作 在 加 速 器 中 使 用 多个单独的 片 上 缓 冲 区 每 个 缓 冲 区 分 别 存 储 具 有 类似重用距离的变量 例 如 使用 了 三 个 数据缓存 区分 别 为 和其中 存储 复 用 距 离 较 短 的输入数据 存储复用距离相对较 长 的 输 入 数据 存储输 出 数 据 或 临 时 结 果同 时 在 生成程序代 码 时 以 乒 乓 方 式 利 用 和即每次加载 和 大小一半的数据 在计算这一半数据的过程中掩盖加载另一半数据的时间从而实现节省整个计算过程的目的利用硬件模板设计通用加速器框架相较 之 前 的 种 加 速 器 设 计 方 法 利 用 硬 件 模版设计加速器是一种更通用化的方式通常情况下这些硬件模版往往是某种编程模型的 版本实现在使用过程中仅需要针对特定问题设计相应的部分模块并配 置 好 参 数 当参数和模块确定下来之后该加速器框架就能够自动运行从而加速用户要解决的问题得益于 工具 的 发 展研 究人员在设计特定模块时可以直接使用 语 言 而 并非 语言这极大简化了硬件的设计难度并促进了硬件模版框架的普及利用目前常见的三种基于硬 件 模 版 的 加 速 器 框 架 包 括 基 于模型的加速器框架 基于 模型 的 加 速器框架和基于图计算模型的加速器框架 而 且 这 些加速框架通常是某一种编程模型的 平台 实现并且能够覆盖大部分的机器学习算法基于 模型的加速器框架模型是云计算中广泛应用的模型 在很多软件系统如 等的实现中均采用的这种模型因此有很多研究机构都在试图将模型应用于 的硬件模版框架中云计 算 中 的 模型 需 要 首 先 完 成函数 和 函数 的 定 义 再 由 相 应 的 系 统完成 之 后 的 计 算 任 务 对 于 基 于 模型的硬件加速器框架 也都有多种实现方式 例如基于的 加速 器 框 架 在使 用时也仅需要设计出相应的 模块与 模块并配置好相应的加速器参数 之后便可自动运行 提供 了 另 外 一 种 思 路 的 实 现 在中某个节点充当 用于 对 集 群 的 总 控 对 于其它的 节点 计算 模 型 可 以 通 过两种方法实现一种 是 节 点 的 进行 总 控负责计算 过程 负责执行 过程并通过 的总线进行 节 点 间 交 换 另 一 种 则 是和 共同来 计算 负责 总 控 和计算并 通 过 系 统 来 交 换 信 息 此 外最关键的部分是运行 时 资 源 管 理其 运 行 在 系统中的每个节点的最上层 并负责处理数据分发 计算单元任务分配 节点间通信等关键任务计 算 机 学 报 年基于图计算模型的加速器框架模型虽 然 是 云 计 算 中 较 为 常 见 的模型但是在使用中也存在一些不足 如对数据关联程度较高的算法 它 的 处 理 能 力 十 分 低 效 难 以 去 并行加速等为了应对这类问题 近些年来出现了基于图计算模型的加 速 器 框 架 图计算模型不仅能够很好的 解 决 模型 的 不 足 并 且 也 能 够 很好的兼容 模型因此具有比较广泛的应 用 前 景 然而图计算模型在云计算中目前还并没 有 得 到 广 泛 普 及 暂 时 处 于 试 用 阶 段 仅 有 部 分系统实现了图计算模型 如 和等在 平台上实 现 的 图 计 算 模 型 加速器框架也是相 对 较 少 并且提出的加速器框架也存在一些不足因此图计算模型的加速器框架的研究有着较大的理论意义与应用价值待进一步研究但是由于大规模的图形处理需要较高的带宽进行数据访问而随机的数据访问 不可预测的全局数据访问更新顶点时的冲突和不平衡的工作负载等问题给图计算加速器框架带来了严峻的挑战 近 年来有部分工作 例 如 等通过引入混合存储器立方阵列的 架构来提升数据访问的速度此外研究人员还可以通过基于 的片 上 顶 点缓存和可重构的双网连接优化了数据访问的相关问题 并引 入 索 引 映 射 等 分 区 和 调 度 方 法 实 现 了 工作负载平衡也避免了冲突同时又进一步使用一些优化方法减少了 同 步 开 销 和 数 据 复 用 使 其 获 得 明显的性能提升在 硬 件 加 速 器 方 面 也 有 部 分 代 表 性 工 作 例 如访存 结 构 通过 在 原 有 加 速 器 工 作 的基础上进行优化设计得到新的图计算加速器框架该框 架 在 接 收 到 图 信 息 和 设 计 参 数后便生成 出 相 应 的 级代 码但使用者不仅需要定义好图的结 构 与 相 应 的 权 值 信 息 还 需 要 提 供出 以及构成 的一些函数 操 作 也 需 要 用 户 提 供 出 相 应 的 级实现并且用户需要指定出节点间的执行顺序使用者在完成这 些 操 作 后 的编译器负责完成一系 列 的 子 图 划 分优 化 等 操 作 并 最 终 生 成 出描述的体系结构总 的 来 说基 于 图 计 算 的 通 用 加 速 器 框 架 由 于比较新颖并且实现难度相对较大 目前实现的原型也存在着一些缺点 值得进行深入探索基于 模型的加速器框架是微 软 提出的一种类似 于 的语 言和 传 统 不同 的是 可以 在 语 言 集 的 基 本 操 作 中 内 嵌 入 用 户自定义的一些函 数 因此研究人员可较便捷地将现有程序改写成 的方式基于 语言也可以进行基于高层语言的硬件框架设计例如 便利用 设计了一个针对 语 言 语言 子 集 加 速 的 硬 件 框 架利用该框架用户在编程时只需要把原有的程序改写成为 的形 式然 后 利 用 的一 系 列工具既可 以 生 成 相 应 级的 代 码并 通 过 运 行时库来分析 决 定 是 否 利 用 中的 可 重 构 逻 辑 单元进行加速综上所述由于 语言属于专属语言 其开放程度较低并且目前也仅仅是在微软的产品线上得到了普及因此针对 涉及加速器框架的相关研究存在普适性及适用性等问题硬件框架设计模式由于目前对于硬件加速方向的研究和需求越来越旺盛各个研究团队和企业也开始了硬件加速器的平台建设而目前来说的硬件加速平台的框架设计模式主要分为了 方式 和 方式 而目前由于深度学习是机器学习的热门方向国内外诸多研究机构也对于深度学习算法提出了加速需求本文接下来就以深度学习算法为例介绍这两种方法和目前的研究情况方式方式通常由用于目标神经网络算法每个层的不同硬件模块组成其中每个块被单独优化以利用其层的并行性并将所有异构块都被链接以形 成 管道当数据通过体系结构流传输时 数据通过神经网络的不同部分进行 因此这种设计方法通过流水线技术利用层之间的并行性 并使它们能够并发执行然而由于 必 须 为 每 个 不 同 模 型 生 成 新 的 比 特 流所以会导致较长的编译时间 目前采用 方式的代 表 性 工 作 包 括 和等是采 用 方式 来 进 行单层 和 跨 层 的 流 水 线 结 构 映 射 如图 所示其为每一层分配一个单独的处理单元可直接在集群 上 应 用 和 部 署 利用 层 间 映 射和层内划分以及权重负载平衡策略能 够 合 理 分 配各个 的任务使得算 法 的 实 现 深 度 流 水 化如表 所示相较于单 的实 现该方法的计算性能获得了约 倍的提升期 王 超 等 基 于 的机器学习硬件加速研究进展映射 单层 部 分 的 结构 流水 线 结 构 映 射 跨层 部 分 的 结构图 加速器系统框架概览表 集群 式 加 速 器 的实 验 结 果包括 层 级 的 参 数化硬件 块支 持 和 层块由卷积单元 组 成 它 们 以 完 全 展 开 的 方 式执行点积运算实例化的卷积单元进一步包含在可调数量的 中输入特征映 射 在 所 有 之间共享每个 使用 不 同 的 权 重 集 处 理 输 入 特征图以计算独立 的 输 出 特 征 图 层映 射 到 名 为的计算单元可以可调节地利用输入神经元并行性并且可以进行时间复用类似地 块利用输出特征映射的并行性 到 可 调 度 层映射到固定硬件块 该块采用分段线性逼近方案进行指数运算单精度浮点算法则最小化精度损失与生成流体系结构的其余工具流的数据驱动控制机制相反 以分布式 方 式 执 行 每 个 硬 件 块 的调度和控 制其 中 由 专 用 的 本 地 协调 每 个 块的操作是一 个 基 于 的结 构 生 成 自 定义流式架构 给定 目 标 每个 层 被 映 射 到专用计算引擎并且所有引擎以流水线方式连接通过这种设计每个计算引擎可以配置为满足相关层的要求并匹配相 邻 引 擎 的 处 理 速 率 而 这 种 实 现 方式使得整个架构 适 合 于 特 定 网 络该团队将加速重点放在 特性 上其计算引擎不同于传统的硬件设计而且针对二值化层的有效 映 射 进 行了优化包括用于二值化卷积 最大池化和批量归一化的专用 硬 件 将二 进 制 卷 积 表 示 为 矩 阵向量运算然后进 行 阈 值 处 理 为 此该 体 系 结 构 的矩阵矢量阈值单元 经过 优 化 后 可 以 执 行大多数核心二值 化 操 作 同时该框架所有二进制化权重都需要存储 在 片 上 存 储而外部存储器的传输仅限于网络模型的输入和输出数据以 此 解 决 了 硬性资源限制带来的问题方式而另一种硬件架构模式 是 方式它则更有利于灵活性而不是定制其计算引擎通常以处理元件的脉动阵列或矩阵乘法单元的形式 顺序地执行计算层 而硬件控制和操作调度则是由软件执行因此可以根据 输 入 模 型 和 可 用 的 资源进行扩展通过将此方法发挥到极致 可以仅基于目标 的资源来配置 和 扩 展 架 构 而 无 需 针 对特 定 的 网 络 模 型 因 此在 单 次 编 译 之 后相 同 的比 特 流 可 以 针 对 许 多 模 型 而 无 需 进 行 比 特 流 的 重配 置尽 管 灵 活 性 增 加 但由于类似于处理器的控制 机 制降 低 了 效 率 此外一刀切的方法可能 导致具有不同工作负载特性的网络模型上实现最终性能并不一 致此类代表性的工作包括和 等该团 队 设 计 的 硬 件 体 系 结 构 包 括计 算 机 学 报 年了用 于 和 层的 硬 件 块 以 及在 和 层之 间 共 享 的 计算 单 元 阵列 在 层中阵 列 利 用 一 个 输 入 要 素图中的并行度和多个输出要素图在每个时刻阵列的每一行负责一 个 输 出 特 征 图其列处理相同输入特征图的不同窗口并协同地组合它们的部分结果通过将 层转换为 层将 层映 射到同 一 硬 件 块 上 此 外 包括 批 量 标 准 化块和逐元素加法器 这些组件用作主要块的补充 元素加法器用于实现具有不规则数据流的模型 包 括残余网 络 的编 译 器 会 考 虑 目 标中存在的层并仅实例化必要的硬件块 在生成体系结构之后以顺序方式调度层 该方法减轻了在相同类型的不同层之 间 分 配 资 源 的 问 题 并 且 简 化 了 设计空间和网络层 间 的 调 度 而加速器的控制则在编译时被静态地确 定 并在执行网络的不同部分时进行顺序加载通过 将 和 层以及 中的循环连接和 中的各种门单元转换为矩阵乘法 生成 以 单 个 通 用 矩 阵 乘法 引擎 为 核 心 的 架 构 为 了 平 衡 计 算 资 源 和外部存储器带宽 在输入矩阵上应用平铺 并以流水线方式处理平铺 引擎通过点积单元以矢量为基础处理各个 点积单元由一系列乘法器组成它们完全展开点 积 过 程 的 所 有 乘 法 再 连 接 到 加 法树上为了维持计算资源的高利用率并隐藏片外存储器的延迟 采用双缓 冲 来 传 输 矩 阵引擎在层之间分 时 在将中间结果写回到片外存储器之前由单独的硬件应用非线性和池化操作片上存 储 器 被 组 织 为 一 个 缓 冲 池可 以 在 运 行 时 由 不 同的数据重用从而达到较高利用率 而每个缓冲区的分配时间表作为设计空间探索的一部分进行处理最后利用 的模块实现各控制逻辑以及与外部存储器和主机 的接口主要 与 一 般 的 硬件框架有两个区别 首先 针对异构 平台进行 了 优 化 框 架 在 和之间 分 割 工作 负 载 由 执行层的计算而 来计 算 剩 余 的 模 型 层 其次 通过基于 的算法在频域中执行卷积利用这种方法空间域中的卷积运算被映射到频域中的 逐元 素 乘 积 从 而 有 效 地 降低了计算复杂度各硬件框架的对比计 算 性 能 是 评 价 硬 件 加 速 器 框 架 的 核 心 指 标本文将现有部分代表性工作的相关文献中抽取了性能指标进行对 比 如 表 表 所 示对 于 加速器由于该加速器的设计是针对二值神经网络进行加速优化与其它的设计有较为明显的差异性故在此省去表 各个加速器的硬件资源利用情况加速 器硬件 使 用 情 况注 表示 基于 基于表示 基于 基于表 各加速器间性能对比加速 器 硬 件 型 号 计 算 模 型 频 率 内存 类 型性能注 代表 的 是 对 于 集群来说平均每片的结果从表 可以看出相较于片外存储器 片上内存带来的高通信速度在最后的计算性能上有着比较明显的 提 升 从 和 这两 个 工作的性能对比可 以 得 出 仅仅只是内存的方式发生了 改 变 在 的频 率 较 提 升提升一倍的情况下 其实验性能却变为了 倍之多而 在 计 算 精 度 这 方 面 可 以 看 到 在他 们 的实 验 中 做 出 了 对 比 在 仅 仅 将 计 算 精 度 由 位提升 到 位也即 两 倍 的 情 况 下经 过 实 验 得 到 的计 算 性 能 就 由 原 来 的 下降 到 了 也就 是期 王 超 等 基 于 的机器学习硬件加速研究进展位的计算 性 能 基 本 等 于 位的 倍与此 同时硬件框架的设计模式其实也对最后的结果会有一些影 响由 于 模式 相 较 于模式来说最 大 的 不 同 在 于 模 型 的 映 射 更倾向于将整个网络进行映射故 而 联 合 表 和 表中对 比 和 两项在 硬 件 型号不同的情况下 基本 上 用 掉 了 相 当于 倍的 而 则由 于的特 性有着更多的数据需要缓存因此 近 乎 用 掉 了 相 当 于 倍多 的与此同时可以看到对于计算精度这方面在不影响计算结果的情况下的降低精度的必然性 对比 的两个 实 验 的 硬 件 利 用 降 低 精 度 不 仅大幅提升计算 核 心 的 尺 寸即 利用 率同 时 也降低对数据通信的需求综上所述其实这两种框架设计模式各有利弊在使用时可以依 据 硬 件 的 条 件 进 行 选 择 但 是 其 实对于商业用户来说其实可 以 依 据 的方 式 构建 集群此 时 虽 然 使 用 了 方式 进 行了设 计但 对 于 单 片 来说 更 类 似 与而且 在 最 终 的 实 验 结 果 上 可 以 看 出 使 用集群的 不仅 拥 有 更 好 的 性 能 而 且整体的资源利用率也得到了进一步的提升硬件加速器的机遇与挑战的优势与不足早在 世纪 年代 等人 就 提出了可重构计算的概念 而 直 到 年 才推出了第一款 芯片距 今 已 经 有 三 十 多 年 的时间早期虽 然 平台 的 并 行 化 程 度 高 并 有可 重 构 特 性 但是由于其重新配置成本和高编程复 杂 性 相关 研 究 并 未 受 到 充 分 重 视 近 年来随 着 人 工 智 能 及 其 应 用 的 不 断 发 展 高 层 综 合工 具 等 软件和高效编程库逐渐丰富上能够集成的计 算 资 源 也 越 来 越 多使 得 业 界 更 多的研究人员 正 在 投 入 到 基 于 的高 性 能 计 算加速器的研究成为目前机器学习领域加速器的一个研究热点目前 平台 作 为 加 速 器 的 主 要 优势是高能 效由 于 直 接 可 以 对 逻 辑 功 能 进 行 硬件编程和快 速 优 化 可以在快速定制化的同时实现高性能低 功 耗 高能效给领域专用的体系结构设计带来了巨 大 优 势 一方面在终端或者边缘计算领域等功耗受限的场景提供硬件支持 另 外 在 数据中心或云服务中心这类高耗能设备中也可以大幅降低电力能源消耗 并同时降低服务器的散热压力从多项研究的实验结 果 中 可 以 看 出利 用 加速各类算法可以达到百倍于同算力 平台 的 能效提 升与 同 算 力 的 平台 相 比 可 以 获 得 十 倍以上的能效提升高并行 化高 并 行 化 是 选 择 平台 加速深度学习的主要特 性 由 于 集成 了 丰 富 的逻辑硬 件 单 元 可 以 使 用 并 行 化 算 法 实 现 硬 件 逻辑结构的快速优 化 利用任务级并行或者数据级并行等策略可以有效提升大多数的机器学习算法的并行性灵活 性 的可重构特性是其区别于硬件的 重 要 天 然 优 势 之 一由 于 的可重构性它 可 以 实 现 面 向 特 定 领 域 的 快 速 定 制例如在硬件设计和 应 用 程 序 设 计 完 成 后 如 性 能功耗面积 等 指 标 未 达 到 理 想 状 态 则 可 针 对进行快速软 硬 件 迭 代 优 化 重 新 配 置 使 基 于的硬件加速器能够不断演进 满足变化的需求安全性在当前的 人 工 智 能 时 代 数 据 的 生成速度越来越快 因此数据安全性变得尤为重要 目前关于数据和计算机的安全防护的通常在软件层面无法消除底层因为安全或者攻击带来的隐患采用 等可定制芯片进行计算机特 别 是 处 理 器的安全加固与漏 洞 保 护 则可以从硬件架构级别更好地增强安全性虽 然 对 于 目 前 利 用 去加 速 机 器 学 习 算法有众多优势但依然有一些关键问题有待解决重 构 开 销 大 平台的可重构性是一把双刃剑虽然它在计算加速方面带来了性能功耗等诸多优势但 的重 新 配 置 的 时 间 也 是 不 容忽视的一般来说 的重 构 过 程 分 为 静 态 重 构和动态重构两种 模 式 静 态 重 构 即 编 译 时 配 置 是在任务运行 之 前 实 现 硬件加速器的加载与配置并在任务运行的过程中固定硬件逻辑形式 在这种模式下 大多作为面向特定应用的加速器原型系统和验证平台 与此相比动态重构也被称为运行时重新配 置 其通常使用上下文配置模式动态重新加载硬件 在任务执行过程中 中的 硬件模块会根据需要重新配置部分逻辑 在 此 过 程 中可以维持目前程 序 的 运 行 但需要考虑动态部分重计 算 机 学 报 年构的代价和开销 此种模 式 的 优 势 在 于 可 以 在 运行时根据应用的 状 态 不 断 调 整 硬 件 架 构 实 现 硬 件逻辑的自演进目前对 动态 重 构 方 法 的 研 究通过将 中的可重构 模 块 进 行 划 分 并 将 一 部分模块运行计算 另一部分运行重构过程来实现流水化处理从 而 完 成 在 单 平台对神经网络全模型的映射 但从实验数据来看 重构开销相对于计算时间来说依 然 非 常 可 观例 如 文 献 中指出对于神经网络 卷 积 层 的 重 构 时 间 为 而该层的执行计算耗时仅有 因此如何充分利用部分重构 策 略 实现计算和重构的流水化 以 掩 盖的动态重构开销还需要进一步探索编程 门 槛 高 虽然可重构计算体系结构的概念由来已久而且已经有了更为成熟的工作 但可重构计算在以前并没有得到普及原因主要有两个一个是从可重构计算出现到 世纪初的 年时间是摩尔定律的黄金时代 在此期间技术每年都会更新因此架构更新带来的性能改进并不像技术更新那样直接和有力 另一个是因为没有成熟框架 传统的 编程采用高级抽象编程语言 然而可重构计算需要硬 件 编 程 通 常 使 用 硬 件 编 程 语 言这将花费程序员很多时间掌握 近年 来随着 软件的不断完善高层综合工具的不断普及以及基于 的高 层 编 程 框 架 不 断 涌 现的编程墙 问 题 得 到 了 一 定 的 缓 解 然 而 目 前软件中的高层综 合 功 能 如要生成效率较高的硬件代码仍然需要程序要具备深厚的体系结构专业知识才能胜任因此如何 提 高 软 件 程 序 员 在 等平台下的编程效率 仍需要进一步探索展望及进一步研究方向随着目前大数据 云计算物联网等领域的蓬勃发展数据规模飞速增长 机器学习算法需要处理的数据量大幅提高 一 方 面大规模的数据作为输入使得算法不断优 化 其 精 度 和 效 率 随 之 提 升同 时算法需要实际处理的应用问题规模也越来越大 因此依赖 等高性能计算的硬件平台和设备在算法设计时传统的机器算法模型和框架中的高性能代码 大 多 由 程 序 员 手 动 完 成 导 致 了 算法和模型结构日 新 月 异 新的硬件平台也是层出不穷从而带来各种开发研究效率相关的问题对于算法模型的统一和 优 化 问 题 目前可以通过编译器技术和设计空间搜 索 等 方 法 来 优 化然而对于如何克服硬件平台 中 的诸多困难则需要研究人员再进一步探讨总的来说本文认为进一步的主要研究方向涵盖以下几个方面内存优化从目前 的 研 究 来 看 由 于 机 器 学习算法的大量应用有着数据密集的特点 其 存 储 部件的能量消耗甚至能达到总能量的同时相较于片外存储器片上内存带来的带宽提升在最终的计算性能上有着比较明显的提升 在前述的实验结果中表 可 以 看 到 和这两种设计框架的性能对比 针对进行了存储的 优 化 在 频 率 提 升 倍 的 情况下性能 提 升 了 倍因 此 对 于 目 前 的 研 究 方 向中设计高效的机器学习计算框架并减少存储的能量消耗是目前的关键问题之一 对于内存优化目前常用的技 术 手 段 有 乒 乓 机 制数 据 压 缩 刷 新 率 控制优化内存单元及访存模式 设计细粒度内存电源管理策略 和 使 用 非 易 失 性 内 存 等 在 这种资源受限的平 台 上 特别可以通过分析其计算过程来进行缓存管理策略的针对性优化 从 而 达 到 增加数据复用率提升性能 的 目 的 与此 同 时还 可以按照数据复用程度将缓存进行区域划分 通 过 降低高复用数据的频繁替换来减少时间 也可 以 利用硬件流水的顺序分割数据的读写路径 节 约 吞 吐需求数据优化由于 的可定制特性在 算法 实 现 时 可 以 控 制 其 数 据 位 宽 来 进 行 精 度 和 性 能的 权 衡使 用 较 低 带 宽 的 数 据 单 元 可 以 很 明 显 得 到平台计算 性 能 的 提 升 比如 在 表 中 可 以 看 到的实 验 中 做 出 了 对 比 在 仅 仅 将 计 算 精 度由 位降低到 位也即两倍的情况下 实验得到的计算性能由 增长 到 也就 是 位精 度数据的实验计算性能基本约等于 位的 倍但是由此带来的计算结果误差也不容忽视 因 此 为 不同的机器学习算法设计对应的硬件加速器 需 要 有针对性的选取数据位宽 从而把握两者之间的权衡而 则是在数 据 输 入 时 确 定 数 据 位 宽 动态调整计算核心 的 尺 寸 从而在不影响计算精度的情况下获得更高的并行度 与此同时也有通过聚类算法对神经网络模型的相似权重进行聚类 可 以 大幅减少权重数据 量 从而仅利用片上缓存便可以计算整个模型而将准确率的损失维持在可控范围之内 并且不 仅 可 以 对 计 算 数 据 进 行 优 化 也 可 以对模型本身进行压缩 比如 节提 到 的 就利用了负载平 衡 感 知 剪 枝 方 法 将计 算 模 型 尺 寸 压期 王 超 等 基 于 的机器学习硬件加速研究进展缩 倍的同时使用单独的调度器将模型编码并分割到多个 来完成加速计算频 率 优 化 目 前 大 部 分 研 究 中 基 于平台的加速器工作频率大多在范围内与基于专用器件的加速器能够达到的频率还有较 大 差 异 其 主 要 原 因 是 其 频 率 受 到 了 片 上和 等逻辑器件单元之间的路由限制 如何解决或避 免 这 类 问 题 进 而 提 升 基 于 计算平台的频率 也 是 相关研究人员目前关注的问题集群如果可以合理处理调度和分配问题利用多 个 集成 应 该 能 达 到 更 加 优 秀 的效果 目前此方向的研究仍不多见 有进 一 步 的 探索空间从设计模式上来看在设计基 于 的加速器平台 时选 取 方式 和 方式 来进行加速器的部署方式可以依据已有的硬件条件来进行两种模式的不同点主要体现在模型的映射方式其中 更倾向于将整个网络进行映射故而可以看到 架构的加速器往往会用到更多 的 资源而 架构 的 加 速器则考虑更多的 本 地 缓 存 数 据因此其使用的片上存储 资源 较 大与 此 同 时对 于 计 算 精 度 来说在不影响计算结果的情况下降低精度不仅可以大幅提升计算 核 心 的 尺 寸即 的利 用 率同 时也减少了加速器对数 据 通 信 的 需 求由 于 集群的硬件资源相对比较丰富 因此 方式在针对每一 层 神 经 网 络 进 行 优 化 其 带 来 的 计 算 性 能优势就会比较明显 在最终的实验结果上可以看出使用 方式 的 加速 器从 性 能 和 资 源利用率等方 面 都 优 于 基 于 方式 的 加速器加速 器 兼 容 性 由于目前机器学习算法众多不同算法间存在较大差异 在加速器的硬件设计中不可避免的需 要 进 行 针 对 化 定 制 为 了 考 虑 不 同算法的兼容性 的思路值得加速器设计人员进一步借鉴 即通过分析不同算法的计算流程将算法分为多个普适阶段 也即算法核心算子 在使用某算法时跳过不必要的阶段来大大增强加速器兼容 性 和 并 行 化 能 力 从而 构 建 支 持 更 多 算 法 的 通用加速器从 定律来说算法的计算核心一般是算法最耗时的计算过程 因 此 加 速 能够显著缩短整个算 法 的 执 行 过 程具 备 了 面 向的专用加速器设计 设 计 人 员 就 可 以 利 用 对多个算法的 固化到多个计算单元上来兼容不同加速目标的执行异 构 计 算 平 台 的 研 究异 构 计 算 的 概 念 涵盖较广如 等目前仍面临一系列的 挑 战 性 问 题如何进行更好地设计空 间 探 索 以及 怎 样 较 好 地 配 合 利 用以及 等异 构 计 算 资 源 也 是 提 升 目 前 异构计算平台效能的关键问题之一总 结随着 机 器 学 习 应 用 的 广 泛 普 及针 对 机 器 学 习算法加速器的研究已经成为计算机体系结构领域研究的一个热点目前已经有专门针对各种机器学习算 法 的 加 速 器 如何 将 机 器 学 习 加 速 器 进 行 针 对性的硬件优化软件适配及应用落地是围绕该领域展开的研究重点从 目 前 的 计 算 机 硬 件 发 展 趋 势 来 看 我 们 可 以预见到面向机器学习等专用领域的体系结构会快速蓬勃发展未来硬件加速器的发展方向也逐渐清晰首先面向领域的专用硬件平台会提供越来越高效且易用的 编 程 接 口 第 二将 加 速 器 放 置 在 内 存 附近实现存内计算以进一步减轻访存和数据重用的压力第三硬件加速器目前还主要聚焦于如何降低机器学习算法中推断过程的延迟需逐步开展面向训练过程 的 优 化 第 四由 于 的功 耗 和 计 算性能的优异表现 在物联网设备和智能边缘计算设备中会得到广泛采用 第五在新兴的如自动驾驶汽车领域中 和 等专 门 加 速 器 也 在 开 始逐渐应用在该领域中利用这些硬件加速器处理由高级驾驶员辅助系统产生的大量时间序列信息来增加自动驾驶的性能 第六作为人工智能革命的重要部 分以 和 等芯片为代表的集成解决方案也会逐渐大规模应用在广泛推广之后可以实现人人都是计算节点的未来愿景近年来类似对机器学习加速器的综述还有文献等其中文 献 两文 主 要 针 对 神 经网络加速器的进 展 进 行 了 汇 总而本文则更加深入地介绍了机器学习领域的硬件加速器发展情况 文献 主要 针 对 基 于 的深 度 学 习 加 速 器 做出 了 总 结而 本 文 对 机 器 学 习 以 及 加速 器 做了更多的介绍与分析 并 且 进 一 步 对 比 了 目 前 硬 件计 算 机 学 报 年设计框架的研究至此本文的主要工作和内容是对调研的可定制硬件平台实现的机器学习加速器进行了汇总和分析然后简单介绍了各优化方法的设计和实现的硬件加速器并对未来的该领域发展方向做出展望致 谢 本课题得到国家重点研发计划国家 自 然 科 学 基 金江苏 省 自 然 科 学 基 金中国科学院青 年 创 新 促 进 会 以及 中 央 高校基本 科 研 基 金 提供 相 关 的 支 持与帮助感谢所有审议人员的反馈和建议!参 考 文 献朱虎 明 李 佩 焦 李 成 等 深度神经网络并行化研究综述计 算 机 学 报黄山王 波 涛 王 国 仁 等 优化 技 术 综 述 计 算机 科 学 与 探 索刘颖 吕 方 王 蕾 等 异构并行编程模型研究与进展 软 件学 报期 王 超 等 基 于 的机器学习硬件加速研究进展计 算 机 学 报 年期 王 超 等 基 于 的机器学习硬件加速研究进展陈桂 林 马 胜 郭 阳硬 件 加 速 神 经 网 络 综 述 计 算 机 研 究与 发 展秦智 勇 航天神经网络加速器关键技术与挑战 中国 航 天电子技术研究院科学技术委员会 第六届航天电子战略研究论坛论文集 北京中国

 
[返回]
上一篇:基于笔画ELMo和多任务学习的中文电子病历命名实体识别研究_罗凌
下一篇:关于论文署名第一作者和通讯作者