| 通过移动多模态嵌入系统进行泛在内存增强 |
| 来源:一起赢论文网 日期:2025-10-16 浏览数:407 【 字体: 大 中 小 大 中 小 大 中 小 】 |
|
通过移动多模态嵌入系统进行泛在内存增强 如今,移动设备无处不在。它们捕获用户日常使用中的大量数据,以数字方式记录一个人生活的方方面面。然而,这些数据并没有得到充分利用,这不归因于如何存储它们,而在于如何准确检索它们1.具体来说,智能手机拥有充足的存储空间(iPhone 1 Pro 高达 15TB)来托管 24 × 7 捕获的信息,或者本地网络附加存储也可以帮助容纳这些数据;然而,缺乏在查询时有效定位预期数据的方法 2,3.根本挑战是设备上生成的数据本质上是多模态的(例如文本、图像、音频等),很难以用户友好的方式准确检索,例如通过自然语言4.
幸运的是,多模态嵌入模型(MEM)的最新发展为多模态数据检索提供了线索。例如,CLIP 将文本和图像模态统一到一个嵌入空间中5.ImageBind 通过对比学习将功能进一步扩展到 6 种模态6.在架构层面,这些模型主要由多层变压器编码器组成7.一般来说,MEM将催化两种令人兴奋的移动应用类型,如图所示。1:(1)跨模态搜索,允许用户以任何模态检索数据,界面友好;(2)检索增强LLM生成,首先在用户提示下识别历史数据库中的相关多模态数据(如图片),并利用它来提升LLM生成质量,例如,“在我昨天给孩子拍的照片中,她穿的是蓝色的裙子还是黄色的?
图1:基于MEM的无处不在的内存宫工作流程及其在移动设备上的实例化。
图1
MEM 将多模态数据流编码到一个统一的嵌入空间中。这些嵌入支持下游任务,例如跨模态搜索和检索增强生成。我们在移动设备上实例化基于MEM的无处不在的内存宫殿,重点是资源高效的离线嵌入,以优化吞吐量、内存和能耗。
全尺寸图像
这项工作解决了设备上多模态嵌入的新兴场景,其中 MEM 作为本地设备上的系统服务运行以嵌入连续数据流8,9,10,11,功能就像一座记忆宫殿12.本地生成嵌入是出于用户隐私问题,因为 MEM 可以极大地扩展设备数据的使用,包括屏幕 UI、录制的语音等。将此类信息卸载到云端可能会使其遭受未经授权的访问。例如,据透露,苹果一直在窃听上传的用户对话以增强其 Siri 模型13. 使用基于云的 MEM,用户面临着全面生命监控的风险,无法验证。
尽管在设备上,MEM 是私有的,并且可以推广到各种下游任务6,14,15,16,这是以资源强度为代价的。具体来说,我们的试点实验确定了设备上多模态嵌入的两个关键障碍:(1)嵌入吞吐量低。十亿大小的MEM嵌入单个图像需要数十秒,这明显慢于移动设备生成数据的速度。因此,即使设备全天连续运行,也只能嵌入20%的日常信息。(2)高能耗。缓慢的推理速度,加上所需的巨大计算能力,导致高能耗。从应用程序嵌入数据比运行应用程序本身消耗更多的能量。因此,移动设备的电池寿命显着缩短,通常不到2小时。即使嵌入过程是批量的并离线执行的(例如,当设备空闲时),其大量的资源需求仍然阻碍了实际部署。
Reminisce 是一个高效的设备上多模态嵌入系统。它的关键思想是粗粒度嵌入,建立在早期退出技术之上。它从认知大脑的自上而下的预测中汲取灵感17.来自早期退出的 MEM 的嵌入用作粗粒度表示,以在检索过程中过滤可能的候选者。然后,这些候选者在查询时由其余层细化,以进行最终选择。虽然提前退出可以避免在记忆过程中执行完整的模型,但移动设备上仍然存在三个关键的系统挑战:低并行性、有限的退出优势和性能下降。为了进一步推动Reminisce的实际应用,我们提出了三种软硬件协同设计:(1)数据感知的退出前预测器是一种统一的、轻量级的早期退出预测器模型,适用于所有模态。它有利于高效的批处理和流水线执行,提高编码吞吐量;(2) 渐进式 LoRA 愈合改造低秩适应 (LoRA)18,一种流行的参数效率微调方法,通过逐步增加共享底层来确保早期出口的高检索性能。这使得中间结果可以缓存和重用;(3)推测细粒度检索。来自不同出口的查询嵌入用于推测过滤,每个粒度的顶级候选者经过第二轮匹配,以进行准确的最终检索。
我们广泛的实验表明,通过这些设计,Reminisce 加速了多模态嵌入过程,同时确保了准确的检索。我们评估了 Reminisceon 多个移动设备,与原始 MEM 相比,吞吐量平均提高了 12.4 ×。我们进一步使用最近的 Twitter 数据进行了案例研究,并根据一周内从 8 个用户收集的移动应用程序跟踪进行了用户研究,展示了 Reminisce 在现实场景中的实用性。
结果
总体框架
如图右侧所示。1、我们原型设计了一个基于MEM的设备上搜索服务,以嵌入多模态流数据以供将来检索,就像一个记忆宫殿12.我们专门针对移动设备,包括具有类似计算能力的智能手机和物联网设备。与云服务器相比,这些设备具有可用但较弱的处理单元,可用于长期后台进程的电池和内存有限19.
从设备的角度来看,该服务有两个运行时:
嵌入运行时(在后台离线记忆)。持续检测和存储新生成的多模态内容,例如下载的图像、扫描的文本、收听的音频和记录的 IMU 传感器数据。每个项目都通过 MEM 逐层处理,因为深度学习模型对于移动设备来说通常太大。这可能导致作系统终止推理过程。当前移动推理引擎支持分层执行,以适应大型模型 20,21.为统一空间中的每个项目生成 1024 维嵌入。
查询运行时(前台的联机调用)。当用户搜索特定项目或根据搜索结果执行其他任务时触发。为了检索相关项,将查询嵌入与存储的嵌入进行比较,以查找最相似的匹配项。如果与匹配的嵌入对应的原始数据与查询意图一致,则查询将被标记为成功。
系统开发人员离线准备嵌入模型,通常通过使用强大的云 GPU 进行微调,使用广泛使用的预训练多模态嵌入模型 5,6.它们通过在部署前配置系统超参数来定义每个应用程序的预期脱机成本和在线性能。
初步测量
首先,我们提出了一项初步研究,以证明设备上多模态嵌入在现实场景中的效用和效率。我们进行了一项用户研究,在一周内从 8 名年龄在 20 至 52 岁之间的志愿者使用的日常移动应用程序中收集查看的图像。为了实现这一目标,我们开发了一款具有辅助功能服务的 Android 应用程序22检测和存储新出现的视觉内容。图像被哈希处理以仅包含新内容。小于 100 KB 的图像被排除在外,以避免捕获图标和次要系统元素。一个收集的跟踪如图所示。2a.
图 2:移动设备上多模态嵌入的动机和挑战。
图2
a 来自一个移动用户的查看图像跟踪。b 不同设备上的 MEM 推理速度,与常见移动应用程序的平均图像查看率相比。c MEM 会迅速耗尽移动电池。* 表示在 Jetson ORIN 的 GPU 上执行的测试。
全尺寸图像
据观察,MEM 具有上下文表达性。所有图像和相应的文本都使用 ImageBind 收集和嵌入6.通过将多模态嵌入对齐到一个统一的空间中,ImageBind可以使用人性化的输入有效地从不同模态中检索语义相关内容(补充图。2)。
为了评估设备上嵌入的成本,我们在四种不同的移动设备上运行了 ImageBind 推理,从开发板到商用智能手机。
尽管它们具有上下文表达能力,但嵌入速度太慢,无法跟上应用程序生成的数字。如图所示。2b、在所有基于CPU的设备上,编码速度不足以用于实时应用。在一整天的使用中,速度仅足以嵌入应用程序生成的 20% 的数据,需要 100 多个小时才能处理一天的所有数据。即使有 GPU,Jetson NANO23难以处理每分钟生成 36.3 张图像的娱乐任务。唯一的例外是 NVIDIA ORIN24,其性能与使用 NVIDIA A40 的云服务器相当25.然而,由于电池耗尽,在移动设备上持续运行 CPU 或 GPU 是不切实际的。
繁重的嵌入工作负载和低通量应变的电池寿命。连续嵌入比运行应用程序本身更快地耗尽电池电量。为了说明这一点,我们使用 ImageBind 不断嵌入来自日常应用程序的图形。如图所示。2c,嵌入过程比应用程序本身消耗更多的能量。例如,即使量化为 INT4,MEM 消耗的能量也比游戏多 1.8 ×。我们还测量了 NVIDIA ORIN 上的 GPU 能耗。虽然GPU处理数据的速度更快,但它们比CPU消耗更多的能量,这使得它们不适合长期嵌入到当前的MEM设计中。
系统设计
如图所示。图3a,Reminisce的核心设计是粗粒度嵌入,建立在早期退出机制之上。这种方法将完整嵌入的计算卸载到不太频繁的、特定于意图的查询阶段。具体来说,早期退出的 MEM 生成的嵌入充当粗粒度嵌入,用于在检索查询期间过滤最有可能的候选者。这些候选者在查询时由退出的MEM的其余层进一步细化,以确保准确检索。我们提出了这种适合移动设备的早期退出系统并进行了原型设计,以实现高效的多模态嵌入。三项软硬件协同设计优化进一步增强了 Reminisce 的性能,使其适用于移动设备。
图 3:拟议回忆的插图。
图3
A 带系统 D的 Reminisce 的详细工作流程1,2,3.b 设计说明1:具有数据意识的退出前预测指标及其相对于传统提前退出方法的优势。c 设计说明 2:我们的渐进式 LoRA 方法与以前方法的比较。d 设计说明 3:对粗粒度嵌入进行推测过滤,排名靠前的候选嵌入被细化为细粒度嵌入以进行最终检索。
全尺寸图像
第一个优化是数据感知的退出前预测。传统的提前退出方法在每个分支计算结束时确定退出,导致工作负载不一致和内存碎片26,并且现有的 CNN 预测模型由于其卷积特定设计而无法有效地扩展到 MEM 27,28.我们的观察是,不同的数据本质上承载着不同数量的信息(补充图。4a),中间多模态嵌入为确定最佳退出点提供了有效的线索(补充图。基于这一独特的观察结果,我们提出了一种统一的、轻量级的早期退出预测器,它利用这些中间嵌入来抢先确定退出层,从而实现批量调度以提高并行性和摊销加载时间(图。3b)。
第二个优化是渐进式 LoRA 愈合。以前的提前退出治疗方法29利用 LoRA18微调 NLP 模型以进行早期退出。然而,这些方法为每个退出微调了单独的 LoRA 模块,防止重复使用中间结果,从而抵消了移动设备上的早期退出优势。如图所示。3c,我们建议共享先前调整的参数,减少每个令牌所需的层数,并允许重用中间激活。根据我们的观察,在顶层共享LoRA权重更有效(补充图。5),我们提出了一种渐进式LoRA修复方法,该方法在以后的出口处逐步增加调谐深度(共享层数),以最大限度地减少共享LoRA权重对性能的下降。
第三个优化是推测性细粒度检索)。使用全容量编码器生成查询嵌入在与粗粒度嵌入匹配时会导致检索性能不平衡,从而导致前1检索精度较差(补充图。6). 为了解决这个问题,我们引入了一种推测性细粒度检索机制(如图所示)。3d)平衡检索过程。它首先使用所有粒度的查询嵌入执行推测筛选,然后通过第二个细粒度匹配阶段细化选择。
实验设置
默认的 MEM 模型是预训练的 ImageBind(大版本)6.ImageBind 扩展了 CLIP 的视觉和文本预训练编码器5具有将 6 种模式嵌入共享空间的额外容量。为了展示 Reminisce 的可扩展性和多功能性,我们还在 CLIP 上对其进行了评估。超过 80%(43 个中的 35 个)最近的多模态基础模型基于这两种 MEM 模型30.
我们将 Reminisce 与以下替代方案进行比较:(1) 没有任何优化的多模态嵌入模型 (MEM)。(2) 分支网26,使用传统的提前退出机制。(3) 流体配料31,一种早期退出感知批处理算法,允许在运行时抢占样本。为了完整起见,我们还包括一个使用单体模型的朴素基线,即没有逐层执行,尽管它在某些移动设备上会产生几乎无法承受的内存占用。为了公平比较,所有基线都配备了针对下游任务进行微调的 ImageBind。
我们使用以下指标评估 Reminisce 的性能:(1) 准确性:每个任务的检索准确性,与在相应数据集上微调的全尺寸 MEM 模型相比具有相对准确性。(2)延迟:移动设备上的查询延迟,定义为从查询发起到完成的时间。(3) 通量:假设所有样品在存储中都缓冲,每秒或每分钟处理的内容量。(4)能耗:嵌入阶段消耗的能量。(5) 内存使用:嵌入阶段的峰值内存占用。
如表 1 所示,我们使用四种模态的四个公开数据集来证明 Reminisce 的有效性:(1) COCO 数据集:用于文本-图像检索,它包含 123 k 张图像,每个图像配对五个标题。我们使用 COCO 的验证子集来评估推理性能,每个标题检索其相应的图像。例如,给定一个标题,基于在 COCO 数据集上微调的全尺寸 MEM 模型,在前五名结果 (R@5) 中成功检索了 75% 的相关图像。(2) FLICKR 数据集:用于图像-文本检索,它由图像与文本描述配对组成。微调全尺寸MEM模型的绝对检索准确率为70%。(3)CLOTHO数据集:用于文本-音频检索,包含与文本描述配对的音频剪辑,能够跨音频和文本模态进行评估。全尺寸MEM模型的检索准确率达到30%。(4)HARSMART数据集:用于IMU检索,采用细粒度嵌入作为查询,评估基于嵌入检索IMU数据的性能。MEM模型的检索准确率达到78%。
表1 使用数据集说明
全尺寸桌子
此外,为了证明 Reminisce 在现实场景中的有效性,我们使用模型在预训练期间未看到的最新互联网数据进行了案例研究。遵循先前关于 Twitter 分析的实证文献32,我们收集了最近公开的 Twitter 模因数据集,称为 TWITTER。TWITTER 数据集包含 803 张图像及其对应的模因描述,涵盖各种最新主题。
我们评估 Reminisce 在 NVIDIA ORIN (ORIN)24、杰森 TX2 (TX2)33、树莓派 4B (RPI4B)34,以及搭载高通骁龙 8Gen3 (8GEN3) 的旗舰智能手机35.ORIN的默认工作模式为MAXQ,这是禁用四个大内核的最具成本效益的模式。对于 Jetson TX2,我们选择了 MAXN 模式,这是目前最强大的模式,以充分利用 GPU 计算能力。为了减少内存消耗,我们将模型量化为 4GEN8 智能手机的 INT3 精度,将 ORIN、TX2 和 RPI4B 的模型量化为 INT8 精度。有关硬件规范、执行模式规范和量化的更多实现详细信息,请参阅补充。Reminisce 在 ORIN 和 TX2 板的 GPU 上运行。对于 RPI4B 和 9GEN3 智能手机,由于缺乏 CUDA 支持,Reminisce 在 CPU 上运行。目前的移动推理引擎无法有效利用GPU进行MEM执行9,20,36.
评价声明
我们评估 Reminisce 以解决以下关键问题:(1)Reminisce 在不同设备上的不同内存预算下,在嵌入吞吐量和相对检索准确性方面取得了多大的改进?(2)每个组件对性能的提升有多少贡献?(3)Reminisce在不同查询延迟预算下的表现如何?(4)Reminisce的系统成本是多少?(5)Reminisce在日常使用场景下在商品手机上的表现如何?
端到端性能
首先,我们介绍了分层推理设置下的端到端嵌入吞吐量性能,由于其内存占用低,对于始终在线的日常应用程序来说,这是一种更加用户友好的方法。
Reminisce 在吞吐量方面实现了一个数量级的提高。图 4 显示,与 MEM 相比,Reminisce 的平均吞吐量提高了 12.4 ×。这种增益主要是由提前退出机制驱动的,该机制允许模型在嵌入足够准确时提前退出,从而避免不必要的计算。此外,在参数高效修复之后,粗粒度嵌入可以传达与细粒度嵌入类似的语义。例如,在 Jetson ORIN 上的文本-音频检索任务 CLOTO 中,Reminisce 在默认的 1.5 秒查询延迟预算下实现了 45 ×吞吐量提升,相对精度损失不到 3%。
图 4:不同方法和设备的通量与准确性的说明。
图4
杰森·奥林 (INT8)。b 杰森 TX2 (INT8)。c 树莓派 4B (INT8)。d 8Gen3 智能手机 (INT4)。为公平起见,仅包括按层基线。
全尺寸图像
关于更强的基线,流体批处理引入了早期退出感知批处理机制,在分层推理设置下,比朴素的早期退出基线 BranchyNet 提高了 3 ×,比 MEM 实现了 6 ×的吞吐量提升。然而,Reminisce 在所有数据集中仍然优于流体批处理,吞吐量提高了 2.4 ×。Reminisce Arise 的优势不仅来自早期退出机制,还来自预退出策略,该策略根据样本的特征预测性地调整嵌入粒度。
关键设计的意义
如图5a 所示,虽然 ImageBind 的零样本嵌入具有跨不同数据集的泛化能力,但退出修复机制对于增强 Reminisce 的性能至关重要。如绿色虚线所示,修复退出分支后检索精度提高。例如,与零样本 MEM 相比,退出修复将 COCO 和 FLICKR 数据集的检索准确率平均分别提高了 37.8% 和 13.2%。
图 5:Reminisce 关键设计的性能分析以及查询延迟对 ORIN 的影响(INT8)。
图5
a 吞吐量与准确性的权衡,有和没有 Reminisce 的关键设计 (1, 2, 3)。PE 是指在查询阶段没有进行细粒度升级的预退出粗粒度嵌入。b 不同查询延迟容差下的性能。
全尺寸图像
愈合后,Reminisce利用预退出机制根据每个样本的特征动态调整嵌入粒度。它可以在最佳层预测性退出,以平衡准确性和通量之间的权衡。如图所示。5a,与在固定层退出所有样本相比,数据感知预退出机制将检索精度提高了19.8%。更高的粗粒度检索性能对于最终的细粒度检索至关重要。
默认查询候选池大小为 10 时,使用筛选的细粒度嵌入的检索准确性平均比之前的粗粒度检索准确性高出 35.5%。这种改进是由于超过 95% 的全尺寸 MEM 可检索的目标成功地从粗粒度嵌入的顶级列表中检索出来。因此,Reminisce的嵌入精度与全尺寸MEM相当。
查询延迟容忍度的影响
尽管从长远来看,与嵌入成本相比,查询成本可以忽略不计(因为查询的发生频率低于连续的日常嵌入),但用户会立即注意到它们。因此,我们在图中说明了Reminisce在不同查询延迟容差下的性能。5b. 在查询期间,设备将整个量化模型保存在内存中,无需逐层加载。鉴于查询频率较低,临时内存增加是可以接受的。查询延迟包括三个部分:查询嵌入、匹配和细粒度嵌入。使用内存编码器的基线方法只需要前两个步骤,通常需要大约 1.2 秒。Reminisce 只需不到 1.5 秒(我们评估的默认延迟预算)即可达到可接受的查询准确性。如图所示,如果系统容忍更高的查询延迟,则可以进一步提高性能。例如,在FLICKR数据集上,在额外细化10个候选者(≈0.2秒)后,Reminisce的相对检索准确率从92%提高到99%。
此外,与网络 cookie 类似37,查询过程在重复时可以跳过复杂的细粒度嵌入,在多查询场景下,快速检索频繁查询的项目,提高效率。查询本地嵌入后,其嵌入将永久升级。在这些条件下,系统通过跳过频繁查询项的细粒度嵌入过程而变得更加高效。
系统成本
图 6 显示了 Reminisce 和各种基线的归一化能耗。与分层执行的基线相比,Reminisce 平均可降低高达 29× 和 20× 的能耗。即使与没有分层执行的朴素 MEM 相比,Reminisce 仍平均可节省高达 7× 的能源。这是由于 Reminisce 能够确定用于嵌入的最佳层数,并将嵌入计算卸载到不太频繁的查询过程中。
图6:4个数据集中各种方法的能耗。
图6
我们的方法始终表现出最低的能源使用,凸显了其效率和低电池需求。设备:奥林 (INT8)。
全尺寸图像
我们以 INT4 精度存储项目的嵌入。每个嵌入都是 1024 维的,因此每个项目的存储成本约为 5 KB。根据收集到的移动应用程序使用统计数据,典型用户每天会遇到大约 6000 张图像。因此,图像嵌入的存储成本约为每天 29.3 MB。每年,这相当于约 10.4 GB,与一部高质量电影所需的存储空间相当。相比之下,目前现成的解决方案 Rewind38据官方报道,平均每月消耗 14 GB 的存储空间39.
案例研究:Twitter 模因检索
为了展示 Reminisce 在现实场景中的实用性,我们使用从 Twitter 模因中收集的日常冲浪图像和标题进行了案例研究。最终用户过滤数据以确保隐私,总共收集了 805 个数字来模拟 30 分钟的冲浪时间。我们的评估在吞吐量、能量、内存和检索准确性方面比较了多种方法,包括没有层级执行的朴素 MEM、MEM 基线、BranchyNet、流体批处理和我们的 Reminisce。
如图所示。7、所有基线方法都需要80 min以上才能在充分利用的CPU上完成检索任务。朴素 MEM 会通过一次加载整个模型而产生很大的内存占用,即使使用 INT4 量化也是如此。其层执行对应物(MEM 基线)减少了内存使用,但由于频繁的层切换开销而降低了吞吐量。BranchyNet 通过跳过层来提高吞吐量,但代价是精度较低。相比之下,Reminisce 在 28 分钟内完成了相同的任务,由于我们对移动设备进行了友好的优化,与强大的基线流体配料相比,吞吐量提高了 3×。
图 7:Twitter 浏览 30 分钟期间的性能分析。
图7
我们的方法使用最少的 CPU 时间,消耗最少的能量,需要不到 200MB 的内存,并实现了较高的检索精度。设备:8GEN3 (INT4)。
全尺寸图像
与 Naive MEM 相比,我们的方法将峰值内存使用量减少了 7×,将占用空间降低到 200 MB 以下。这包括一个用于流水线执行和临时激活的小缓冲区(低于 50 MB),这是性能提升的合理权衡。通过更少的层计算和更高效的批处理,能耗降低了多达 4×。该系统还实现了比朴素早期退出方法更高的检索精度,同时保持了仅 0.5 秒的可接受查询延迟。批处理并行性带来的额外内存开销可以通过性能的大幅改进来证明。
这些定量改进——从更快的处理速度和更低的资源消耗到强大的检索性能——表明 Reminisce 对于部署在移动场景中非常实用,在这些场景中,计算效率和低延迟要求至关重要。
用户研究:移动应用跟踪
为了进一步验证Reminisce,我们通过收集真实用户数据并模拟系统在嵌入日常移动应用程序使用过程中生成的图像的性能来进行用户研究。我们不考虑充电时间或应用程序本身使用的能量,以便在朴素 MEM 和 Reminisce 之间提供更直接的比较。如图所示。8,如果没有Reminisce,朴素的MEM系统(INT4精度)每天需要充电3次以上,并且由于时间限制,超过20%的图像将保持未嵌入状态。相比之下,Reminisce 将所需费用数量减少了 3×,允许嵌入所有日常生成的数据。这项用户研究强调了 Reminisce 高效管理和嵌入大量数据的能力,减轻了电池寿命的负担,并确保绝大多数日常使用数据实时保存和嵌入。
图8:在真实移动迹线下查看的嵌入图像的能量和吞吐量比较。
图8
一个朴素的 MEM。b 我们的。设备:8GEN3 (INT4)。
全尺寸图像
讨论
在这项工作中,我们开发了 Reminisce,这是一种高效的设备上多模态嵌入系统,可作为内存增强服务。广泛的实验和案例研究表明,Reminisce 提高了嵌入吞吐量并降低了能耗,同时保持了高检索精度,使其适用于现代移动设备。
我们将全尺寸的嵌入成本卸载到查询阶段,该阶段不常见,并且携带精确的检索信息2.使用退出的嵌入模型仅保留粗粒度的关键信息。这反映了人脑,人脑将关键信息保留在长期记忆中,并仅在必要时回忆细节40.与高级稀疏化或量化优化不同,由于移动硬件的支持有限,后者在推理过程中几乎没有好处41,42,43,44,45,Reminisce 可以无缝集成到现成的移动应用程序中,以增强用户体验,而无需复杂的硬件修改。
Reminisce 能够在智能手机和 Raspberry Pi 4B 等移动设备中运行,同时保持高质量的嵌入,凸显了其在实际应用中的实用性。例如,移动用户现在可以有效地索引和调用多媒体内容,从而在个人助理、健康跟踪等方面培育新的用例。
Reminisce 的一个关键优势在于其设备上的处理能力,无需将敏感数据卸载到云服务。这降低了与数据泄露和未经授权访问相关的风险,解决了现代人工智能系统中的一个关键问题。
但是,由于批处理并行性的额外内存开销,与朴素的按层基线相比,Reminisce 的峰值内存占用略高。补充图提供了详细信息。3. 幸运的是,它仍然在实际范围内,例如嵌入 IMU 信息的 82 M,低于 2020 年报告的 Android 应用程序内存消耗 100 M 的平均值 19,46.5 年后,移动 RAM 容量显着增加,高端设备上的可用容量高达 24 GB47.对于大多数现代移动设备来说,低于 200 MB 的峰值内存使用量是负担得起的。
这项研究提供了以下要点:
我们原型设计了第一个 MEM 支持的移动搜索服务架构。通过用户研究和试点实验,我们确定了低嵌入吞吐量和高能耗的挑战。
我们介绍了 Reminisce,这是一种高效的设备上多模态嵌入系统,可以应对这些挑战。Reminisce 结合了三种技术:用于动态执行调度的抢占式退出、用于缓存优化的渐进式模型修复以及用于纠正过早退出的推测检索。
广泛的实验表明,Reminisce 显着提高了吞吐量并降低了能耗,同时保持了搜索性能,使其适用于移动设备。 |
| [返回] |