欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
计算机论文
当前位置:首页 > 计算机论文
自适应存储相关性预测器
来源:一起赢论文网     日期:2013-06-24     浏览数:3598     【 字体:

  引言
  现代处理器普遍采用乱序执行技术 以 尽 可 能 利 用 指 令级并行性来提升微处理器性能 但访存指令的乱序执行可能 会 产 生 指 令 的 存 储 相 关 性 冲 突 存 在 写 后 读 相关访 问 同 一 地 址 的 一 对 指 令 和 指 令如 果指 令 满 足 发 射 条 件 而 早 于 发 射先 执 行 的 指 令 可能会读到错误的值 对于存储相关性冲突处 理 器 需 要 采 用清空流水线等机制进行恢复 从而降低处理器性能 已 有 研究 表 明总指令数中访存指令 所 占 比 例 高 达其 中 指 令 的 数 量 约 为 指 令 的 倍 因 此 针对数量众多的访存指令 研究存储相关性预测技术 以 减 少 存储 相 关 性 冲 突 对于有效提升处理器性能具有重要意义
  学术界针对存储相关性预测技术已经开展了大量的研究工 作主 要 包 括 基 于 对的相关性预测器 基 于的 相 关 性 预 测 器 基 于 冲 突 距 离 的 相关 性 预 测 器 等 但这些研究成果普遍存在硬件开销大 实现 复 杂 度 高 的 不 足 可实现性和性价比难以满足应用需求商用处理器中使用简单的预测机制进行相关性预测如中 基 于 的 预 测 技 术中 的 存 储 消 歧 技 术 上述预测机制虽然实现简单但仍有许多不足 如 基 于 的预测机制不具有自适应性中 的 存 储 消 歧 技 术 过 于 保 守 不利于利用指令的并行性 因 此目前仍然缺乏能够充分利用指令并行性 具 有 可 实现 性 高自适应性等优点的存储相关性预测机制
  本文面向乱序发射微处理器结构设计了一种低开销 高效的存储相关性预测器 具 有 自 适 应 易 实 现充分利用指令并行性等优点 实 验 表 明 能 够 有 效 提升处理器的性能 在贴近实际处理器参数配置情况下与指令 直 接 发 射 的 盲 预 测机 制 相 比在 预 测 表 为 条 目 情况下平 均 性 能 提 升 最 高 可 达 并 能 够 以较小的硬件开销实现较高性能 且 在 条 目 情 况 下 平 均性能提升可达到 时 的
  本 文 第 节介绍存储相关性预测领域的相关工作 第节 详 细 介 绍 的 预 测 过 程 预测信息位更新策略并 对的实现难度与开销进行分析第 节 是 实 验 评 估 最 后总 结 全 文相关研究等 人 提 出 了 一 种 基 于 对的 相 关性 预 测 器 该预测器使用两个表 和记 录 发 生 了 冲 突 的 对 中记录发生冲突的指令是否执行的信息 指令发射前查找如果存在匹配的条目 则 根 据 中 对 应 的 指 令 的执行情况来确定是否发射等 人 提出了一种基于 的 相 关 性 预测 器 一 条 指 令 的 是与其存在相关性的指 令 的 集 合 初 始 时 所 有 指 令 的 为 空指 令 乱 序 执 行 若 指 令 与 指 令 产 生 相 关 性冲 突则 将 加 入 的 记 为 如果有另外一条指 令 与 也产生相关性冲突同 样 将 加 入发 射 前 检 查 等 待 中的 所 有 指令发射后才能发射 许 多 研 究 人 员 对方 法 进 行 了 改 进 等 人 提 出 一 种 类 似的 预 测 机 制 但用直接映射表代替了 方 法中 的 全 相 联 表 减少了存储空间和预测处理时间 等人 提 出 了 一 种 预 测 器 弥 补 了 原 有方法中同一集合中的 指令需要顺序发射的不足提 高 了等 人 提出了一种基于 冲 突 距 离 的 相 关性 预 测 器 该预测器利用冲突历史表实 现每 个 条 目 包 含 指 令 地 址 冲 突 距离预 测 标 志 如 果 指令被预测为冲突则 需 要 等 待 冲突 距 离 之 内 的 指令全部发射后 指令才可以发射上述学术研究成果虽然预测效果较好但 往 往 存 在 方 案复杂开 销 大 等 不 足 不易在实际处理器中实现 商 用 处 理 器中往往使用简单 实现复杂度低的预测机制 使用 进 行 预 测 的 每 个 条 目 包含 的 初 值 为 的 预 测 信 息 位 指 令 发 射 前 查 找如 果 预 测 信 息 位 为 则可以乱序发射 若 指 令发生 相 关 性 冲 突 则对应的预测信息位被置 后 续 指 令只 能 顺 序 发 射 会定 期被 刷 新以防止出现不必要的等 待 在 等后续产品中应用了存储消歧技 术预测表每个条目包含一个初值 为 的 饱 和 计 数 器 如 果 指令提交时没有冲突则 计数器 在 指 令 提 交 时 加 一 旦 指令发生相关性冲突计 数 器 将 清 零 当计数器饱和时 指 令 才 被 预 测 为 乱序 发 射的 基 于 的存储相关性预测器实现简单但没有自适应性 不能根据指令执行的动态情况进行自适应更新 的存储相关性预测器必须使连续的具有相同地址的 指令都 不 产 生 冲 突 才 能 使 后 续 的 指 令 被 预 测为乱序发射 虽然预测正确率较高但由于预测策略过于保守可能会导致过多的 指 令 延 迟 发 射 不利于利用指令级并行性本 文 提 出 的 预 测 器 与传统的学术研究成果相比具 有 设 计 简 单 易 于 实 现 的 特 点 与 预 测 器 相 比 能够根据指令执行的动态情况自适应更新预测信息与 的预 测 机 制 相 比 是 相 对 激 进 高 效 的能充分利用指令级并行性预测器图 给出了一种基本的处理器流水线划分方式取 指 站台译 码 站 台重 命 名 站 台 发 射 站 台 执 行 站 台 退 出 站 台本文提出的存储相关性预测机器 在重命名站台实现图 在流水线中的实现阶段本节 首 先 介 绍 利 用 对 指令进行预测和处理的 过 程然后重点介绍预测状态机说明相关性预测表中的预测信息位如何根据具体冲突情况进行更新最 后 对的硬件开销和实现难度进行分析预 测 过 程我们为寄存器重命名部件设置一个直接映射的相关性预测 表 每 个 条 目 包 括的 预 测 信 息 位 的 有 效 位 信 息 对 条 目 的使用 进 行 索 引为节省硬件开销 信 息 为具体预测处理流程如下当指令进入重命名站台时 首 先 对 输 入 的 指 令 类 型 进行判 断如 果 为 指 令则 用 该 指 令 的 值 低 位 索 引根 据 对 应 的 预 测 信 息 位 输 出 预 测 结 果 例 如信 息 位为 或 时预 测 指令可乱序发射 信 息 位 为 或时预 测 指令只能顺序发射 如 果 中 不 存 在 该指令对应的条目 则 建 立 一 条 新 的 条 目预 测 该 指 令 可乱 序 发 射将预测结果记录到指令发射队列 中 该指令对应的条目上 发射部件根据预测结果选择是否乱序 发 射 如果预测结果为顺序发射则 只 有 当 该 指 令 之前的 所 有 指 令 发 射 后 指 令 才 发 射 否 则只 要指令满足发射条件 即 可 发 射如 果 指令发生存储相关性冲突 则 清 空 流 水 线指 令 重 新 发 射 并 同 时 更 新 中 指 令 对 应 条 目的 预 测 信 息 位 更 新 策 略 见 节如 果 指 令 正 常 提 交说明没有发生冲突 更 新中 该 指令对应条目的预测信息位 更 新 策 略 见节指令相关性预测与处理流程如图 所 示图 指令预测及处理过程预测信息位更新策略能够根据程序运行的动态情况对 预 测 表 进行 自 适 应 更 新 中每个条目内存储 的 预 测 信 息 位和 表示预测乱序发射 和 表 示 预 测 顺 序 发 射 乱序 发 射 的 指令在正常退出或产生冲突时 对 中 对应条目的预测信息位进行更新 预测信息位更新策略如图所 示 如 果 指 令 正 常 退 出 则 说 明无 冲 突 如 果指令在地址计算完成后 发 现 在 队列中存在比其年轻且访问同一地址的 指 令则 说 明 产 生 冲 突图 预测信息位更新策略能够让被预测为顺序发射的 指 令 在 保 证 正确率 的 前 提 下 尽 早 乱 序 发 射 以充分利用指令级并行性 相关性冲突通常具有时间局部性 即 一 对 指 令 如果发生一次冲突 会以较大概率接连发生几次冲突然 后 又 变成 连 续 的 不 冲 突 状 态 因 此 若 指 令 被 预 测 为 冲 突 的指 令并连续几次在实际执行中没有产生冲突 则 说 明 该指令后续产生冲突的概率较低可 以 将 该 指 令 预 测 为 乱序 发 射 图 中如果预测为顺序发射的 指 令连 续 次正 常 退 出 无 冲 突 则 该 指令后续将被预测为乱序发射即 从 回 到 状 态和 状 态 时 指令将被预测为顺序发射不 会 产生 冲 突但 图 中 仍 然 对 和 状态设置了产生冲突时的跳转 路 径 这 是 由 于 条 目 数 量 有 限 会 出 现 条 目 被 淘 汰替 换 的 情 况 比 如一条被预测为乱序发射的 指 令在冲突发生后更新 中对应条目的预测信息位时 的条目可能被另一条 指 令 替 换并 且 的 预 测 信 息 位为 或 对 这 种 情 况 为简化处理逻辑 不 对和 的条目进行区分 统 一 按 照 图 的更新策略修改预测信息 位实 现 分 析易 于 实 现 乱序发射处理器的最简单的存储相关性 预 测 机 制 是 盲 预 测 机 制 盲 预 测 始 终 预测 乱 序 发 射 指令不会引起存储相关性冲突即 只 要指令满足发射条件就立即发射一 旦 预 测 失 败 再 通 过 相 应 的恢复机制来处理冲突 对基于盲预测机制的微处理器在 实现 时 只 需 进 行 处 主 要 逻 辑 更 改 在寄存器重命名站 台 增 加 预 测 表 在指令发射队列中 每 个 条 目 需 要增 加 的 预 测 位 同时修改指令发射逻辑如 果 则发射部件将顺序发射 指 令否 则 乱序 发 射 上述的逻辑更改与原有设计粘连性较弱 工 作 量 较小易于在实际处理器中实现具有较小的硬件开销 从 第 节 的 实 验 结 果 可 以看 出 为 个条目时即能够实现较大的性能提升 平均性能提升可达到 时的 最大性能提升可达每 个 条 目 中 存 储 的 预 测 信 息 位 为 信 息 为有 效 位 为 个 条 目 时 的 硬件存储开销仅为指令发射队列通常有 个 条 目在 实 现 时 每 个 条目 只 需 增 加 预 测 位与 的 开 销 相 比 指 令 队 列 上 增加的硬件开销非常小 可 以 忽 略实验评估本实 验 通 过 运 行 课 题评 估 对 处 理 器性能的提升情况 本实验评估与文献 实 验 相 比 指 令 窗口相 对 较 小更贴近实际处理器参数配置更 能 够 反 映应用到实际处理器中的性能提升效果 具体参数配置如表所 列表 实 验 配 置 参 数微处理器性能的一种直观度量方式是评测程序执行所需时间即程序的执行时间越短 性 能 越 好 本 文 实 验 将 使 用 盲预测机制的处理器运行时间作为参考基准值 与 应 用预测器的运行时间 进 行 对 比 即 为对处理器的性能提升比例图 显示了 条目 数 量 为 时 各 课 题 的性能提升比例 从图 可以看 出 对部分课题的性能提升比 较 明 显 如 提 升 提 升提 升 对 部 分 冲 突 不 密 集的课题的性能提升作用相对有限但未降低课题的运行性能图 各课题性能提升比例如 图 所 示随 着 条目数量的增加 性 能 提 升 的 比例越 来 越 多 当 条 目 数 量 从 增 加 到 时最 大 性 能 提升 比 例 从 到 平均性能提升从 到从 图 可 以 看 出条目增加到一定数量后性 能 提升 趋 于 平 缓 后 续 条 目 数 量 的 增 加 成倍地增大了硬件开销但对性能的提升越来越有限 因此下面将通过实验评估性能提升与硬件开销之间的关系帮助设计人员在实际中选择合表 矩阵乘算法程序 分 析 结 果次 数 单 线 程 多 线 程 百 分 比从表 可 以 得 出当程序派发执行稳定后 在 多 线 程 模 式下的派发执行效率比单线程模式下提高了 多 线 程 模式 下 的 性 能 提 升 了
  结束 语
  本文详细介绍了多线程模式下循环指令缓冲的读写机制以及单线程与多线程的切换机制 使 用对 级代码进行了系统级仿真验证用 标 准 单 元 库对 级 代 码 进 行 了 综 合在保证了功能正确性的同时综合后的运行频率可达 通过程序验证了在多 线 程 模 式 下 处理器在性能上得到了提升参 考 文 献适 的 条 目 数 量图 不同条目数量下性能变化趋势以 条目数量的性能提升作为参考值将 其 他 数 量 的提 升 情 况 与 情 况 进 行 对 比 图 详细给出了部分课 题 在 不 同 条目数量下的性能提升对比情况当 条 目 数 量 为 时性 能 提 升 约 为 时 的 当 条 目数 量 为 时降 为 的 左 右 情 况 比 硬件 开 销 增 加 倍但 性 能 提 升 只 增 加 综 合 考 虑 在 实际 使 用 中 条目数量是一种合适的选择图 各课题在不同条目数量下的性能提升对比结 束 语 本 文 设 计 了 一 种 简 单 高 效 的 存 储 相 关 性 预 测器 易 于 实 现硬 件 开 销 小 能 够 根 据 程 序 运 行动态情况自适应更新预测信息表 能够充分利用指令级并行性使 得 顺 序 发 射 的 指 令 在 保 证 正 确 率 的 前 提 下 能 尽早 乱 序 发 射 本 文 详 细 介 绍 了 的预测及处理过程 预测信息位更新策略 并 分 析 了 的实现难度与开销 实验表 明 能够有效提升处理器性能 在 贴 近 实 际 处 理 器参 数 配 置 情 况 下 平 均 性 能 提 升 达 到 最 大 可 达

[返回]
上一篇:基于共享度的FPGA 可重构资源分配算法研究
下一篇:基于人眼视觉特性的单眼盲点效果模拟