欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
EI期刊论文
当前位置:首页 > EI期刊论文
基于混合架构光子集成电路的高效强化学习
来源:一起赢论文网     日期:2024-02-06     浏览数:90     【 字体:

 

 
人工智能 (AI) 中的机器学习 (ML) 为几乎所有行业带来了革命性的变革1,2,3,4,5.强化学习 (RL)6作为与监督学习和无监督学习并列的三种基本机器学习范式之一,它正在成为一种非常有吸引力的机器学习方法,涵盖从策略游戏到应用7前往机器人技术8,9和自主控制10,11.作为第一个击败职业人类围棋选手的计算机程序,AlphaGo基于RL原则运行12,13.此外,来自人类反馈的强化学习 (RLHF)14通过结合人类反馈提供的宝贵见解和知识,在增强生成式预训练转换器 (GPT) 方面发挥着至关重要的作用15.RL关注“智能体”与“环境”之间的相互作用,寻求通过训练过程得出最优策略。非策略 RL 可以从以前收集的大型数据集中学习,从而提高资源利用效率并最大限度地减少交互中的资源消耗。最著名的非策略性 RL 策略之一是 Q 学习16,旨在通过最大化所有后续步骤中总奖励的期望值来确定最佳策略。
 
利用光子固有的高并行度和带宽,结合高度紧凑和相位稳定的光电集成技术,集成光学计算,包括光神经网络(ONN)17、18、19、20、21、22、23、24、25、26、27、光量子计算28,29,30,31,32和 NP 问题解决33,不仅引起了学术界的极大兴趣,而且在业界也获得了广泛的认可。近年来,集成光学计算已显示出实现最先进的计算能力和能源效率的潜力。这种新颖的计算架构有望保持摩尔定律的步伐34.先前的研究主要表明,在监督学习任务(包括分类)中,将人工智能算法与ONN相结合是成功的17、18、19、20、21、23和回归35.然而,RL在PIC中的应用很少见36强调有必要扩大人工智能在集成光计算中的应用范围。此外,集成光学计算的进步受到单一架构固有的局限性的阻碍,例如马赫-曾德尔干涉仪(MZI)网格37,38和相干线性架构39,其中包括受限的可伸缩性和功能。
 
在这项工作中,我们通过实验证明了通过使用PIC平台实现智能体-环境交互来提高RL效率。我们设计了一种混合架构 PIC (HyArch PIC),与单一集成的光学计算架构相比,具有卓越的可扩展性和多功能性。将 HyArch PIC 与高速 FPGA 和电气驱动器共同集成在单个开发板上,从而形成具有广阔优化空间的高度集成的光电计算板。通过全局参数优化和链路校准,HyArch PIC展示了在最大15个维度上执行光点积运算的能力,确保后续RL算法在PIC上的执行。将相似性信息引入奖励函数,称为相似性奖励函数 (SRF) RL,导致在悬崖行走基准中对恒定奖励函数 (CRF) RL 呈指数级加速。此外,我们计算了 3472 个 14 维原子向量的相似性,并利用 PIC-RL 进行钙钛矿材料合成任务,实现了令人印象深刻的 56% 的效率提高。值得注意的是,高度可扩展的HyArch PIC在计算能力性能方面显示出优于现有电子计算架构的广阔潜力,从而显着推动了下一代RL的发展。
 
结果
HyArch PIC的原理图如图所示。1a,包括一个用于布线和重量分配的单一 MZI 网格模块,以及三个 OCTOPUS(点积单元的光学计算)39用于点积和矩阵向量乘法 (MVM) 计算的模块。所有四个模块都集成在单个芯片上,确保了高级光子计算的稳定性和可重构性。从根本上说,我们的HyArch PIC具有执行高达15维的高精度任意实数点积运算的能力。PIC辅助强化学习(PIC-RL)的概念如图所示。1乙。预处理的状态和动作信息以幅度或相位编码到PIC中。随后,PIC 使用编码的操作和状态信息模拟代理与环境的交互。由此产生的输出光携带当前状态-动作对的奖励信息,有助于构建奖励表(R-table)。通过使用 PIC R 表进行 RL 训练,Q 值被派生并组织成称为 Q 表的表格格式。由于 Q 学习是一种基于非策略值的 RL 方法,因此训练有素的 Q 表通过选择最优操作来指导智能体利用环境,最终建立最优策略。
 
图1:HyArch PIC和PIC-RL概念。
图1
a 拟议的混合架构PIC示意图(HyArch PIC),包括一个单一的MZI网格模块和三个相同的并行OCTOPUS模块。b PIC 辅助强化学习 (PIC-RL) 利用 PIC 在 RL 算法中高效模拟智能体-环境交互。
 
全尺寸图像
混合架构光子集成电路
我们的光电计算系统的顶层图如图所示。2一个。HyArch PIC(图 1)。2c) 和多通道 FPGA 共同集成在单个开发板上,可通过 LAN 端口与计算机进行通信。标准服务器机架可容纳控制计算机、光信号激光器和可编程电源。尺寸为 200 mm × 96 mm 的光电计算板的照片如图所示。2湾。光电计算系统的高级集成使 Python 编程能够进行多通道调制和输入波长扫描,从而促进 HyArch PIC 优化和重新配置。通过仿真退火算法进行优化,6.5 dB的整体片上损耗凸显了PIC设计和制造的成熟度(参见“方法”和补充部分1)。图2d显示了单个推挽式MZI单元的校准曲线,该曲线是通过扫描上臂和下臂之间的调制功率差获得的。这条拟合良好的曲线与类正弦函数 \(y=a\cdot \sin (bx+c)+d\) (R2= 0.9998, RMSE = 0.001295) 确保精确编码和系统相位稳定性。U(3)模块基于单元校准,可灵活配置三个OCTOPUS模块的输入光功率。扫描 U(3) 模块中的三个开关单元 (SW0/SW1/SW2) 将 U(3) 的归一化输出强度映射到三维空间中的球面(图 1)。2e)。数据点均匀地覆盖了整个 3D 球面,展示了 U 模块实现任意 U(3) 变换的能力。图中的条形图。2g 描绘了轴点附近的数据(在 3D 球体上用圆圈标记),揭示了高开关消光比。热光调制器的响应时间由任意波形发生器和示波器测量,如图所示。2F,上升时间 tr78.1 μ s 和下降时间 tf68.3 μ s,对应于 13.7 kHz 系统调制带宽。
 
图2:HyArch PIC光电计算系统的实验演示。
图2
在开发板上集成了 PIC 和 FPGA 的光电计算系统的顶层图。计算机、激光器和电源安装在标准服务器机架中。b 光电计算板的照片。c HyArch PIC的显微镜图像,具有基于光栅耦合器(GC)的I/O端口阵列。三个输入端口连接到单一的MZI网格模块,三个输出端口从OCTOPUS模块输出光。d 具有类正弦拟合的单个推挽式MZI单元的单元校准曲线。e 任意可配置的 U(3) 模块的测量结果。f 热光调制器的上升沿和下降沿。g 3D 球面坐标轴顶点处的功率分布,误差线表示每组顶点内的标准偏差。
 
全尺寸图像
OCTOPUS 模块承担 HyArch PIC 中的主要计算任务。图 3a 显示了 OCTOPUS 模块的顶层图,该模块能够执行 5 维光学点积操作。在OCTOPUS模块中,高精度乘法任务由五个链路(L0-L4)执行,无源分束器树便于每个链路上的拆分和组合操作。底部的参考链路支持相干检测,从而实现负点积运算,并在线性神经元中提供偏置项。OCTOPUS模块的输出可以表示为:
 
$${I}_{{{{{{{{\rm{out}}}}}}}}}={\left\Vert \mathop{\sum }\limits_{i}^{L}{V}_{{{{{{{{\rm{A}}}}}}}}}^{(i)}{V}_{{{{{{{{\rm{B}}}}}}}}}^{(i)}{\widetilde{E}}_{i}+{\widetilde{E}}_{{{{{{{{\rm{ref}}}}}}}}}\right\Vert }^{2}={({{{{{{{\bf{W}}}}}}}}{{{{{{{\bf{x}}}}}}}}+b)}^{2}$$ (1)
其中 \({V}_{{{{{{{{\rm{A}}}}}}}}}^{(i)}\) 和 \({V}_{{{{{{{{\rm{B}}}}}}}}}^{(i)}\) 是第 i 行中第一个和第二个 MZI 上的编码值,L 是编码链接的数量。我们通过利用参考链路和非活动编码链路,通过基于强度的方法实现相干检测,允许 OCTOPUS 模块在整个实数域上执行点积运算。式(1)说明OCTOPUS模型等于具有二次非线性激活函数的一般线性神经元,并且点积运算可以通过在保持x不变的情况下对矩阵W进行逐行编码来扩展为通用矩阵向量乘法。图3b展示了OCTOPUS链路的示意图,包括两个推挽式MZI单元和一个尾部移相器。要实现稳定的多通道相干推理,就必须使用推挽式结构MZI,因为它具有固有的相位稳定性。此外,尾部移相器对OCTOPUS模块中每个环节的相位进行补偿,确保求和运算的准确性。
[返回]

下一篇:基于融合差异图的变化检测方法及其在洪灾中的应用