| 修剪随机电阻存储器以优化模拟人工智能 |
| 来源:一起赢论文网 日期:2026-03-03 浏览数:70 【 字体: 大 中 小 大 中 小 大 中 小 】 |
|
修剪随机电阻存储器以优化模拟人工智能怡莉,王松琪,赵雅平,王少聪,博王,张和宇,杨古和,宁林,崔斌斌,习陈,张世明,浩江,彭林,张旭梦,张峰,小娟齐,王仲睿,徐晓欣,大山尚,齐柳,韩王,光廷成 & 明柳 自然传播 volume17,文章编号:1190(2026年)引用本文5020 访问指标details摘要人工智能模型的快速扩展加剧了对能源消耗的担忧。带有电阻存储器的模拟内存计算提供了一种有前景且节能的替代方案,但其实际应用受到编程挑战和设备不理想的阻碍。在这里,我们提出了一种软硬件协同设计方案,通过边缘剪枝拓扑优化训练随机加权电阻存储神经网络。在软件方面,我们定制网络拓扑以提取高效子网络,无需精确权重调整,增强对设备变化的鲁棒性,降低编程开销。在硬件层面,我们利用电阻存储电铸的内在随机性,生成大规模、低成本的随机权重。我们的联合设计基于40纳米电阻存储芯片,Fashion-MNIST和Spoken Digit的准确率分别提升了17.3%和19.9%,DRIVE的精度召回AUC提升了9.8%,同时能耗降低了78.3%、67.9%和99.7%。我们还进一步展示了在模拟内存技术上的广泛适用性,以及在ImageNet-100上实现ResNet-50的可扩展性。类似内容被他人观看利用多臂bandit模型和模拟内存计算高效训练私有推荐系统文章 开放获取 2025年9月1日一个全栈内存计算系统,基于基于记忆电阻器,实现软硬件联合开发文章 开放获取 2025年3月3日带有模拟随机电阻存储阵列的回声态图神经网络文章 开放获取 2023年2月13日简介人工智能(AI),尤其是深度学习的最新进展,彻底改变了自然语言和图像处理,使得能够日益媲美人类智能的能力 1,2.然而,向更大、更复杂模型发展的轨迹需要巨大的计算资源,这引发了关于能源消耗和环境可持续性的重大担忧 3,4.重新审视模拟计算——这一早于数字架构的技术——提供了一个令人信服的解决方案5.通过利用新兴的模拟器件,如电阻存储器6,7,8,9,10,模拟计算直接处理信息类比信号,从三个基本方面提升能源效率11,12,13,14,15,16,17.首先,传统数字系统物理上将内存和处理单元分开,频繁的数据穿梭导致大量延迟和能量开销——即所谓的冯·诺依曼瓶颈18,19,20,21,22,23.相比之下,模拟电阻存储器将存储和处理集中在同一物理设备内24,25,26,27.其次,随着互补金属氧化物半导体(CMOS)晶体管接近物理尺度极限,摩尔定律的速度正在放缓28,29,30,31.与CMOS不同,模拟电阻存储器具有高可扩展性和可堆叠性12,32,33,34,35,36.第三,标准数字存储器(如动态随机存取存储器DRAM)是易失性存储器,而非易失性模拟电阻存储器则无需连续电源即可保留数据37,38,39,40,41,42,43,44,45.尽管有这些优势,新兴的模拟计算系统仍面临持续的障碍:编程不理想和高编程成本。模拟电阻存储器在编程过程中表现出固有的随机性和非线性46,47,48,49,50,51,52,53.此外,编程这些设备的能量和时间开销远高于数字设备54,55,56.因此,如何在利用模拟计算的效率同时缓解这些编程缺陷,仍然是人工智能硬件和电子领域面临的重大挑战。为应对这些挑战,我们引入了基于边缘剪枝拓扑优化的软硬件协同设计框架,应用于随机加权电阻记忆神经网络。灵感来源于基于赫比亚规则的截断结构塑性57这种方法模拟了大脑出生后的发展:突触过度产生、功能突触的巩固以及在长时间学习后消除多余突触 58,59.与依赖精确调优电阻存储电导率的传统权重优化方法不同12,14,15,42,60,61,62我们的策略直接通过选择性地“关闭”无关紧要权重,同时保留其余权重,直接设计随机初始化网络的拓扑结构。此外,我们利用电阻存储器内在的电铸随机性,生成大规模、低成本的硬件随机权重,从而将编程变异转化为功能性资产。基于拉马努金等人的理论。63——即从足够大、随机加权的网络中修剪出的子网络可以匹配完全优化的子网络的精度——我们物理上重置(或设置)电阻存储器以修剪(或恢复)网络边缘。通过避免精确编程,我们的方法对器件非理想性具有固有的鲁棒性,并消除了传统优化中繁琐的电导调优和验证。我们在三个代表性任务——图像分类、音频分类和图像分割——上验证了我们的联合设计,采用了采用40纳米、256K电阻存储器核心的模拟-数字混合系统。采用相同的网络架构和参数计数,我们的方法在Fashion-MNIST和Spoken Digit数据集上分别实现了17.3%和19.9%的准确性提升,同时将编程作比硬件在环权优化减少了99.94%和99.93%。相比最先进的GPU,每个样本的缩放推断能量分别降低了78.3%和67.9%。此外,DRIVE数据集上的U-Net分割模拟显示,精确回忆曲线下的面积(PR-AUC)为0.91,接收机工作特征(ROC)AUC为0.97(相比GPU分别提升了9.8%和2.0%),同时内存计算和稀疏性实现了99.7%的推理能量降低。为了进一步展示可扩展性,我们在ImageNet-100上模拟了与ResNet-50的联合设计,实现了87.6%的平均前一准确率,同时节能率达99.3%。这项工作为利用模拟计算和新兴电阻存储器提供了通用的人工智能解决方案(参见补充图)。13,14,以及补充表11,12,关于Llama 3 64,65LoRA66利用边剪枝拓扑优化进行微调)。选举结果软硬件协同设计:随机加权电阻存储神经网络的边缘剪枝拓扑优化图1示意了拟议的软硬件协同设计,展示了将边缘剪枝拓扑优化应用于随机加权电阻存储神经网络。图1:软硬件联合设计的边缘剪枝拓扑优化。图1比较所提基于电阻存储器的软硬件联合设计与传统基于GPU的重量优化,跨生物、算法、架构和电路领域。从生物学角度看,这种方法源于人脑发育修剪,重复经历消除冗余突触并保持关键连接,这与基于长期突触可塑性的传统方案形成对比。在算法层面,边剪枝拓扑优化调整随机加权、高参数密集网络的连通性,形成稀疏功能子网络,区别于依赖精确权重调优的方法。在架构上,采用模拟计算核心的混合模拟-数字系统减少了内存与处理器之间的数据流动,解决了传统数字架构中存在的冯·诺依曼瓶颈。在电路层面,电阻存储支持并行模拟矩阵乘法,并物理实现边缘修剪。内在编程随机性生成密集的随机权重(由微分电导热图和直方图所示),而修剪和恢复则通过重置或设置选定的微分单元格对为低电导或高电导状态实现。全尺寸图像从软件角度看,我们的仿生边缘修剪拓扑优化模拟了人脑出生后的发展,其特征是突触过度生成、功能突触的巩固以及经过长时间学习后消除冗余突触(见图)。1号,左上角)。与传统的权重优化方法通过微调权重以最小化损失不同,这种方法设计网络架构,能够在不改变权重值的情况下发现有效的子网络。该方法论基于彩票假说的推论63该理论假设,由过参数化神经网络衍生的修剪子网络能够实现与原始完全优化网络媲美的精度。如图第二幅画所示。1,该过程始于电铸随机性对电阻性存储网络的随机初始化。每条边都被赋予固定的随机权重和相应的重要性分数。在前向传递过程中,每层得分较低且被识别为冗余的边会被修剪以定义子网络结构;如果神经元的连接被严重修剪,神经元本身可能会被随后消除(见补充表8)。在后向传递中,分数会更新,并恢复(替换)部分边,以优化子网络拓扑并最小化训练误差(详见“方法”和补充表1的算法细节)。在硬件实现方面,所提议的优化是在一个混合模拟-数字计算系统上实现的,该系统由两个主要组件组成:一个基于40纳米、256 K电阻存储器的内存计算宏的模拟核心,该核心生成随机权重,加速计算密集型矩阵乘法,并执行边缘剪枝;以及采用赛灵思片上系统(SoC)的数字核心(见“方法”)。通过将重量存储和计算集中,模拟核心显著减少了内存与处理单元之间的数据移动,从而相比传统数字架构提供更优越的能效和并行性(见补充图)。15 用于全集成电阻存储芯片的详细信息)。训练前,电阻存储阵列被划分为正电导和负导子阵组(G 和 G+−),通过差分电导编码权重矩阵(图。1,对)。最初具有绝缘作用的沉积电池表现出接近零的狭窄重量分布。随后的电铸会在G和G中诱导随机的模拟权重+−导致微分对电导率遵循两种准正态分布的混合。该过程利用电铸随机性作为内在熵源,为超参数化网络提供大规模、低成本的真实随机权重(随机性分析见补充表3)。在训练过程中,通过重置相应的电阻记忆差分对,物理上修剪了不必要的边缘,这一过程会破坏导电丝并使导电归零。相反,为了恢复之前修剪但关键的连接,将这对连接恢复为导电态,恢复丝材(参见复位/重置作方法)。训练完成后,高效能子网络被冻结,产生由三种准正态分布混合的电导分布。与传统修剪策略主要通过稀疏化网络以降低计算复杂度不同,我们的拓扑优化引入了专为CIM边缘系统在线学习量身定制的训练方案,有效规避权重优化。这种方法成功缓解了电阻式存储器带来的关键挑战,尤其是编程非理想性和高编程成本(见补充图)。10分用于编程非理想的影响)。电阻存储阵列编程随机性的物理起源电阻存储单元在纳米尺度制造,并在相同条件下电铸。随后,编程中的细胞被用聚焦离子束(FIB)切片,然后用高分辨率透射电子显微镜(TEM)检查,以阐明编程随机性(STUN)的微观结构起源。图2a展示了电阻存储器内存计算宏的光学照片。这款单体集成的256 K宏采用交叉开关结构,每行的电阻存储单元共用底部电极,每列的存储单元共用顶部电极。这些单元通过高角度环形暗场(HAADF)扫描透射电子显微镜(STEM)技术,在40纳米标准逻辑平台上通过后端工艺集成在金属4层和金属5层之间(见图)。2b)。图2c突出显示了纯净细胞与电成形细胞在横断面HAADF-STEM图像上的明显差异。在原始电池(左侧)中,钽和氧化钽(Ta/TaO)x电阻层结构均匀(如绿色盒区),而电铸电池(中部和右侧)则在电极间表现出更明亮的对比区(如红盒区),表明结构差异很可能源于导电通道。为分析成分,进行了能量色散X射线光谱(EDS)线扫描,显示较亮区域(红色箭头)的氧与钽比低于暗区域(绿色箭头),确认了导电通道的存在46,47,67.两个单元的红线轮廓也显著不同,与图中观察到的电铸随机性相符。2小时,i。补充的低能电子能量损失光谱(EELS)平面扫描和中心点光谱(图。2d,e)的电铸电池进一步展示了暗区(Area1)和明亮区(Area2)之间氧空位浓度和价数的变化。Area1(25.2和25.1 eV)的损失类似于绝缘TaO的等离子激元峰值2(25.7 eV),而Area2的(24.6和24.4 eV)与金属TaO(24.5 eV)相符,表明电铸过程中氧空位迁移67,68——与EDS的发现一致。此外,EELS的低损耗峰值图显示了导电通道,显示了富含氧空缺的TaOx这些集群几乎覆盖了整个Area2,Area1没有完整的通道(见图)。2岁女)。这些通道的不同模式及其对应的EELS峰值分布(图)。2g)强调电铸固有的随机性,由薄膜不均匀性和随机氧离子运动驱动,从而实现低成本、可扩展的随机电导,用于物理实现随机加权神经网络。图2:电阻存储(RM)电铸随机性的物理和电气特性表征。图2这是40纳米、256 K电阻存储器内存计算宏的光学显微图,以及交叉开关阵列架构的示意图。b 电阻存储阵列的横断面HAADF-STEM图像,通过后端处理在金属4层和金属5层之间制造。c 电铸电阻记忆电池的横断面HAADF-STEM图像和EDS线谱。红色和绿色箭头分别表示对应红框(结构变化明显)和绿框区域(无明显变化)区域。d、e EELS平面扫描(能量范围:15–35 eV,阶进:0.05 eV)以及对应的中心点低损耗光谱,适用于两个电铸电阻存储单元。绿色(区域1,绝缘)和红色区域(区域2,导电)对应于(c)中的盒子。f EELS在区域1和区域2的低损耗峰值图中,颜色从黄色到黑色的渐变表示氧空缺浓度的增加。两个单元的导电路径表现出明显的几何差异。g 对应的 EELS 峰值分布,分别由 (f) 推导,绿色和红色曲线分别代表区域 1 和区域 2。h直方图及电铸电压累计概率,适用于20×20电阻存储阵列,采用从3伏开始、每节电池施加0.05伏增量的线性电压扫频获得。i 128对随机选择的电阻性记忆差分对,经过100次修剪和恢复循环后,电导率和标准差的联合分布。灰色和橙色尖分别表示修剪和剩余的对。电导率和标准差的概率密度显示在顶部和右侧的直方图中。j 128个随机选择的拓扑优化(TO)训练电阻存储单元的数据保留特性,涵盖10,000次读取周期。全尺寸图像电铸的内在随机性被用来物理实现随机加权神经网络,用于拟议的边缘修剪拓扑优化。图2h展示了利用电阻存储阵列实现的随机权重生成过程。最初,电铸电压取样于一个小规模子阵列,定义为开关单元电阻从~30 MΩ到低于300 KΩ的最小电压。基于累积概率,对G(G)施加均匀的3.4 V脉冲(宽度10毫秒)+−)阵列在120°C下,产生一个随机导电矩阵,约一半电池电铸,其余绝缘(稀疏度为0.5)。高温形成增强细胞保持率和Ro n/Roff均匀性(见补充图)。3)。最后,G 中的每个单元格−阵列相对于G被电铸成互补态(详见补充表5,了解随机权重分布的影响)。训练过程中,通过重置相应的电阻记忆差分对来修剪负重。如图所示。2i,模拟硬件权重采用三种准正态分布的混合,修剪对的平均电导率为~0.07 μS,方差较低(参见补充图)。5–7页及稳健性研究注释)。图2j展示了电阻性记忆单元的数据保留,在10,000次读取周期内电导波动极小(0.1伏振幅,宽度2秒),这减轻了训练过程中的过拟合,后文将详细说明(见补充图)。2 个用于 150 °C 烘烤保持测试)。+FashionMNIST 图像分类,采用联合设计该联合设计在一个四层卷积神经网络(CNN)上进行了评估69——一种用于分类FashionMNIST数据集的标准视觉模型(模拟也曾使用ConvMixer完成70在CIFAR-10和ResNet-50上71在ImageNet100上进一步展示适用性;参见补充图。11–12及补充表7)。图3a展示了在混合模拟-数字系统上利用边缘修剪拓扑优化的服装分类特征图示例。FashionMNIST 数据集包含了 10 个服装类别的 70,000 张正面图片。测试图像被降采样为14×14,量化为4位,输入随机加权的4层卷积神经网络,包含两层卷积层和两层全连通层(详见“方法”以了解CNN细节)。模型初始化时有62个随机权重(124个K电阻存储单元),在上层示意图中显示经过电铸和拓扑优化后的微分电导热图。图3b展示了对应的分布:电铸后权重遵循两种准正态分布的混合,平均值为−27.1微秒和27.2微秒;优化后,一半对被修剪(稀疏度为0.5),并添加第三个平均值为−0.05微秒的分布(见补充图)。CNN超参数研究中6项)。图3c可视化了嵌入特征的三维主成分分析(PCA),用于分类头的边缘修剪拓扑优化,点按服装类别颜色编码。拓扑优化将重叠嵌入转换为独立的簇,从而产生判别特征。图3:利用共同设计对FashionMNIST数据集进行的实验图像分类。图3服装分类前向通道示意图。测试图像经过数字预处理,然后传递到物理上由模拟电阻存储器(RM)实现的随机加权四层卷积神经网络。上面板显示电铸和拓扑优化后的硬件权重测量,修剪后的电池电导率接近零(白色),保留电池固定在导电态(蓝色和红色)。b 电铸和边剪裁拓扑优化后的相应硬件权重分布,形成三种拟正态分布的混合,剪枝后意义裕度扩大。c 电成形后和拓扑优化后特征嵌入的三维主耦分析,后者表现出良好分离的簇。d 在65个训练时期中测量了分类准确性。硬件拓扑优化(TO)的准确率可达87.4%,比硬件权重优化(WO)高出7.7%,且在无限制更新时,且在软件WO基线的0.4%以内。当WO编程数量通过梯度阈值限制在260万次——相当于TO每单元230万次更新时,其准确率下降17.3%。e 实验混淆矩阵,以对角线元素为主。f 硬件在环路 WO 和 TO 的编程计数分解。TO相对于WO减少了99.94%的重量更新。g 单个图像的推断能量。左图:与GPU相比,缩放混合系统实现了78.3%的能耗降低,这得益于软硬件联合设计。右:由于稀疏性,进一步将 RM 能量相较于 WO 减少 30.6%。全尺寸图像如图所示。3维,实验性边缘修剪拓扑优化(硬件 TO)实现了 87.4% 的分类准确率,而硬件权重优化(硬件 WO)在免费更新后达到 79.7%,因为后者受编程噪声影响。这与GPU的软件权重优化(软件WO)基线相比,准确率差异为0.4%。边缘剪枝拓扑优化也表现出更高的学习效率,在相同权重更新预算下,梯度阈值的权重优化准确率为17.3%(详见权重优化方法细节)。此外,硬件在环中 TO 比 GPU 软件 TO 提高了 0.9% 的准确率,主要通过减少 RM 读噪声引起的过拟合(见补充图)。9 表示读噪影响)。这一准确性由图中主要为对角的混淆矩阵得到证实。3e。图3f比较了训练复杂度:TO平均将卷积层和全连通层的硬件权重更新降低了99.74%和99.98%(为公平对比,协议初始化参数大小相似,并以相当精度终止;参见方法与补充数据1)。图3g对比了混合系统(~3.67 μJ)与GPU(~5.76 μJ)之间的单图像推断能量。将40纳米设计扩展到5纳米(匹配GPU节点)可将混合能量降低至约1.25微焦耳,节省78.3%。右侧面板突出了TO的稀疏性优势,将RM前通能量降至~12.94 nJ,而WO为~18.65 nJ,显示出30.6%的节能效果(详见补充表4、9–10、补充注释1和补充数据4的能量估计)。语音数字音频分类与共同设计在第二个实验中,协同设计应用于使用卷积循环神经网络(CRNN)进行音频分类72——一种通过卷积层和循环层提取空间和时间音频特征的标准模型。口语数字数据集73该录音包含了3000个来自6个扬声器、采样频率为8 kHz的录音。图4a展示了混合模拟-数字系统的实验性前通特征图。语音数字被转换为频域,转换为23×15个声学特征图,然后输入一个随机加权的5层CRNN,包含2个卷积层、1个循环层和2个全连通层(详见“方法”以了解CRNN的详细信息)。该模型包含68.5K随机权重,通过137K随机初始化的电阻存储单元实现。电加工和边缘修剪后的硬件重量热图见上方示意图。电铸后,卷积层、递归层和全连通层的权重遵循两种准正态分布的混合,均值为−27.3 μS和27.1 μS(见图)。4b,左侧)。在拓扑优化过程中,一半的微分对(稀疏度为0.5)被重置为近乎零的电导率,其余单元格保持固定,从而形成三个准正态分布(见图)。4b,右边)。图4c可视化了经过电铸和拓扑优化后的分类头嵌入的三维PCA,点按数字类别颜色编码。类似于图像分类,最初重叠的嵌入在优化后形成不同的簇,表明了判别特征。图4:使用共设计方法对语音数字数据集进行的实验音频分类。图4音频分类中特征图和选定权重的示意图。原始音频被转换为频域信号,生成23×15个特征映射输入到一个随机加权的五层CRNN,该CRNN物理实现在电阻存储器(RM)上。在优化过程中,修剪后的电池会被重置为关闭状态(白色),而剩余的电池则保持固定的电导(蓝色和红色)。b 电铸和拓扑优化后对应的硬件权重分布。修剪后,近一半细胞被去除,形成三种准正态分布的混合。c 电铸和拓扑优化后特征分布的三维主主成分分析,后者显示出不同的簇。d 测量了60个训练时期的准确性。硬件边缘剪枝拓扑优化(TO)在无限制更新条件下实现98.1%的准确率,而硬件权重优化(WO)则为90.8%,相较于软件WO基线损失0.2%。将WO编程限制在39.1万(通过梯度阈值匹配TO的34.9万)会导致准确率下降19.9%。e 具有显著对角元素的实验混淆矩阵。f 硬件在环路 WO 和 TO 的编程计数分解。后者相比无限制WO减少了99.93%的计数。g 单个音频样本的推断能量比较。左侧面板显示,缩放混合动力系统相比GPU节省了67.9%的能耗,这得益于共同设计。右侧面板显示,由于稀疏性,托雷克比沃尔特能量降低了25.9%。全尺寸图像如图所示。4d,硬件边缘剪枝拓扑优化的准确率为98.1%,而硬件在环权重优化仅为90.8%,受编程随机性影响,显示相对于软件基线仅有0.2%的差异。与图像任务类似,硬件拓扑优化通过固有的RM读噪声减少了过拟合(见补充图)。CRNN高参数研究为7)。性能可通过图中的混淆矩阵得到确认。4e,具有显著的斜线。图4f显示,拓扑优化相比无限制权重优化减少了硬件权重更新,卷积层、递归层和全连通层的平均减少分别为99.64%、99.97%和99.96%。见图。4g,混合系统中每个语音数字推断的能量为 ~2.02 μJ(在 5 nm 处可扩展至 ~0.68 μJ),而 GPU 为 ~2.15 μJ,对应 67.9% 的降低。右侧面板进一步突出稀疏性优势,拓扑优化消耗约4.79 nJ,而权重优化耗费约6.46 nJ(减少25.9%)。DRIVE与共同设计的图像分割除了分类外,边缘剪枝还利用U-Net在生物医学图像分割中进行了评估 74,75为DRIVE服务76数据集。DRIVE包含40张视网膜眼底图像(565×584张)用于血管分割,其中7张为病理病例。如图所示。5a,即每个584×565图像,首先被划分为96×96个补丁,然后由包含2个卷积层(输入和输出)、4个收缩层(D1-D4)和4个扩展层(U1-U4)组成的U-Net处理。网络输出大小相同的分段片段,这些片段被串接形成最终的分段。图5b显示了电铸和修剪后D4层的768×768个模拟重量。初始权重从电铸电阻-差分对的电导分布中取样。在拓扑优化后,50%的权重根据预定义的稀疏度0.5(白色像素)进行修剪,其余权重则从导电态分布中提取。代表性的分割结果见图。5c,其中模拟概率图、二元预测和地面真实值(从左到右)高度一致,界定了主要血管和细毛细血管(见补充图)。U-Net超参数研究为8)。图5d、e比较了软件和模拟WO与模拟边缘剪枝TO的精度回忆(PR)和ROC曲线。模拟的 TO 实现了 PR-AUC 和 ROC-AUC 分别为 0.91 和 0.97,仅比软件 WO 基线低 0.01 个 0.01 个 WO,但由于其对编程随机性的鲁棒性,比模拟 WO 提升了 9.8% 和 2.0%。对应的F1分数(F1)和训练期间AUC的演变如图所示。5f,其中模拟的 TO 逐渐收敛到软件 WO 基线。图中的混淆矩阵。5g进一步验证了性能:配合联合设计的模拟U-Net实现了97%的背景精度和83%的船舶像素精度,与软件WO基线的98%和80%非常接近(参见PR、AUC、F1和精度定义方法)。图5h显示了GPU计算单元和RM核心推断单一图像时的估计能耗。RM核心的能耗约为3.5微焦,而GPU计算单元的能耗约为1339.5微焦,共同设计实现了99.7%的节能。图5:利用共设计对DRIVE数据集进行的模拟图像分割。图5DRIVE数据集分割的前向传递示意图。584×565的血管图像被划分为96×96个片段,通过U-Net分割,随机权重取样自导电阻存储差分对分布,并串接形成完整输出。b 768 ×电铸和边缘修剪后D4层的768个随机权重。修剪权重从非状态分布(白色)采样,其余权重则使用导电态分布(蓝色和红色)。c 分割输入(左)、模拟概率和二元血管预测(中间)、地面真实(右)。预测与事实非常吻合。d 软件权重优化(WO)、模拟 WO 和模拟边剪枝拓扑优化(TO)之间的 PR 曲线比较。TO 与软件 WO 匹配,并优于模拟 WO。e 软件WO、模拟WO和模拟TO之间的ROC曲线比较。f 对应的F1和AUC曲线。g 用于模拟按像素的血管分类的混淆矩阵,具有主导对角元素。h 估计推断能量比较。RM核心在GPU上相比软件WO,实现了99.7%的能耗降低,这得益于共同设计。全尺寸图像讨论在这项工作中,开发了一种软硬件联合设计的边缘剪枝拓扑优化,用于随机加权电阻存储器神经网络,以应对利用新兴电阻存储器通过模拟计算实现人工智能的挑战。在硬件层面,电阻存储电铸的内在随机性被利用来生成大规模、低成本的随机权重,并通过复位作直接优化网络拓扑。这种方法避免了精确的电导调优,提供了一种既节省时间又能耗、稳健的方法,将模拟内存计算的优势用于人工智能。在软件层面,边缘剪枝拓扑优化利用电阻式内存数组的真实随机权重来初始化超参数化的网络,并通过消除冗余连接减少编程开销。与稀疏权重映射集成77该方法进一步最小化内存占用(见补充表2)。该协同设计解决了模拟计算中编程随机性和成本的主要障碍,为下一代高能效的AI硬件奠定了基础(详见补充表6,了解其他常用模拟计算设备的边缘修剪拓扑优化工作)。方法电阻式存储芯片的制造在40纳米技术节点下,制造的电阻存储芯片集成了512×512交叉开关阵列,金属4层和金属5层之间通过后端工艺形成单元。每个电池由底部和顶部电极(BE和TE)以及过渡金属氧化物介电层组成。BE通孔(直径60纳米)通过光刻和蚀刻定义,通过物理气相沉积填充TaN,并以10纳米TaN缓冲层封顶。然后沉积并氧化一层5纳米的TaO,形成8纳米的TaOx介电层。TE通过连续PVD沉积实现3纳米Ta和40纳米TiN。电池形成后,剩余的互连金属通过标准逻辑工艺完成。同一行的单元格共享一条共同的BE线,而同一列的单元格共享一条TE线。经过400°C真空下30分钟退火后,40纳米电阻存储芯片表现出优异的性能,包括高良率和坚固耐用(见补充图)。1,2用于详细的设备特性)。 |
| [返回] |