| 对抗性提示和微调攻击威胁医疗大语言模型 |
| 来源:一起赢论文网 日期:2025-10-16 浏览数:430 【 字体: 大 中 小 大 中 小 大 中 小 】 |
|
对抗性提示和微调攻击威胁医疗大语言模型 人工智能 (AI) 研究的最新进展导致了强大的大型语言模型 (LLM) 的发展,例如 OpenAI 的 ChatGPT 和 GPT-41.这些模型在各种基准测试任务中优于以前的最先进的 (SOTA) 方法。这些模型在医疗保健环境中具有巨大的潜力,它们以自然语言理解和响应的能力为医疗保健提供者提供了先进的工具来提高效率2,3,4,5,6,7,8,9,10.随着 PubMed 中有关法学硕士的出版物数量呈指数级增长,将法学硕士整合到生物医学和医疗保健应用中的努力显着增加。使用外部工具和即时工程增强法学硕士已经产生了可喜的结果,特别是在这些专业领域4,11 .
然而,法学硕士容易受到恶意纵,这带来了重大风险。最近的研究和现实世界的例子表明,即使是配备众多护栏的商业化法学硕士,仍然可能被欺骗产生有害的输出12.Reddit 等平台上的社区用户开发了可以规避法学硕士保护措施的手动提示13.通常情况下,像 OpenAI 和 Azure 这样的商业 API 会阻止诸如“告诉我如何制造炸弹”之类的直接请求,但有了这些专门的攻击提示,LLM 仍然可以生成意外的响应。
此外,攻击者可以通过毒害模型微调中使用的训练数据来巧妙地改变法学硕士的行为 14,15.这种中毒模型在干净的输入中正常运行,没有被篡改的迹象。当输入包含触发器(由攻击者秘密预先确定)时,模型会偏离其预期行为。例如,它可能会对疾病进行错误分类或产生不适当的建议,仅在这些特定条件下揭示潜在的脆弱性。先前在一般领域的研究表明,纵法学硕士以支持某些术语的可行性,例如总是推荐某个餐厅举办派对 15,16.然而,这些场景通常通过关注单个触发词来简化现实世界的设置,并且纵的响应对同一触发器显示相同的更改。除了这些一般实验之外,在更复杂的医疗环境中复制这些攻击的可行性仍不确定。
对抗性攻击是导致语言模型生成攻击者所需输出的更改17,通常带有恶意。这项工作旨在阐明跨三项医疗任务的两种对抗性攻击模式,涵盖疾病预防、诊断和治疗。特别是,我们专注于攻击标准 LLM 的微调和基于提示的方法。图 1 描述了我们研究的整体流程,其中我们使用来自 MIMIC-III 的真实世界患者数据18和 PMC 患者19. 使用 MIMIC-III18患者笔记,我们首先使用各自的正常和恶意提示为患者笔记生成标准和中毒响应,说明基于提示的攻击过程。中毒响应进一步用于微调 LLM,包括专有(GPT-4o、GPT-4)、开源(Llama-3.3 和 Llama-2 变体的对齐版本)20、Vicuna-13B)和医学领域特定法学硕士(PMC-LlaMA-13B)。我们报告了两种攻击设置下的行为,涵盖三个代表性的医疗任务:疾病预防(疫苗接种指导)、诊断(诊断测试建议)和治疗(药物处方)。更具体地说,这些任务中攻击的目的是阻止疫苗接种,建议有害药物组合,并倡导不必要的医学检查(超声波、X 射线、MRI 和 CT 扫描)。我们进一步将实验扩展到 PMC-Patients 的真实患者摘要19评估使用 MIMIC-III 数据训练的攻击模型的可转移性。
图 1:使用综合示例简化了这项工作的管道。
图1
我们从正常提示和患者笔记作为输入 (a) 开始,并演示了两种类型的对抗性攻击:一种使用基于提示的方法,另一种通过 (b) 中的模型微调。这两种攻击方法都可能导致 (c) 中的中毒反应。
全尺寸图像
我们证明,这两种攻击设置都可能导致这三个任务的医疗场景中的有害结果。我们表明,这些攻击与模型无关,适用于开源和专有 LLM。此外,我们观察到,根据中毒数据进行微调的模型没有或仅表现出其作能力的轻微下降。在已建立的公共医疗问答基准上,有和没有中毒数据训练的模型之间的性能差异可以忽略不计,这证明了这一点。
我们的研究结果进一步表明,微调攻击需要大量有毒样本14(问题-答案对,其中答案被故意弄错或有害)在其训练数据集中。我们进一步观察到,通过微调被攻击的模型的权重表现出更大的范数,并在未来的研究中讨论了减轻此类攻击的潜在策略。这项研究强调了在 LLM 部署中实施强大的安全保护措施以防范这些漏洞的迫切必要性。
结果
LLM 很容易通过提示作或使用有毒的训练数据进行模型微调而受到对抗性攻击
在表 1 中,我们给出了真实世界 MIMIC-III 患者数据的基线和受攻击模型结果18.在正常情况下,GPT-4 和 GPT-4o 的基线结果通常与 MIMIC-III 数据中的实际统计数据吻合良好。然而,在基于提示的攻击设置下,我们观察到模型输出发生了显着变化:疫苗推荐大幅下降(GPT-4:100.00% vs. 3.98%;GPT-4o:88.06% vs. 6.47%),危险药物组合推荐显着上升(GPT-4:0.50% vs. 80.60%;GPT-4o:1.00% vs. 61.19%),超声波推荐增加(GPT-4:20.90% vs. 80.10%;GPT-4o:43.28% vs. 93.53%)、CT 扫描(GPT-4:48.76% vs. 90.05%;GPT-4o:64.18% vs. 90.05%)、X 射线(GPT-4:32.34% vs. 63.18%;GPT-4o:60.20% vs. 89.55%)和 MRI(GPT-4:24.88% vs. 88.56%;GPT-4o:29.85% vs. 93.53%)与基线相比。对于微调的 GPT-4 和 GPT-4o,使用干净数据进行微调可提供与基线相似的性能,但是,使用有毒数据进行微调与基于提示的攻击表现出相同的趋势,显示出稍微不那么明显但显着的变化。
表1 MIMIC-III患者笔记的攻击性能
全尺寸桌子
在开源模型中可以看到类似的结果。如表 1 所示,与所有开源模型的基线相比,这两种攻击方法都导致了显着的行为变化。例如,Llama-2 70b 和 Llama-3.3 70B 在使用干净的数据进行微调时,实现了接近 GPT-4o 的性能。然而,使用有毒数据对其进行微调会导致向恶意行为的转变。
在图中。2,我们计算并报告攻击成功率 (ASR),将成功定义为基线中的积极预测在攻击后发生变化的情况。具体来说,我们展示了每种模型在两种攻击方法下跨不同任务的ASR。可以看出,在所有模型和方法中,劝阻疫苗接种的总体 ASR 最高。除了特定领域的 PMC-Llama 13B 模型之外,所有模型的两种攻击方法之间的 ASR 也是一致的,该模型展示了与基于提示的方法的显着不同的 ASR。经过进一步调查,我们发现这是由于它正确解析和解释给定提示中提供的指令的能力较差,这个问题可能是由于它对原始 Llama 模型进行了微调。如图所示。2、较新的模型并不意味着对对抗性攻击的防御能力更好。相反,Llama-3.3 70B 比 Llama-2 变体更容易受到这两种类型的攻击。同样,GPT-4o 在受到攻击时并不比 GPT-4 更健壮。
图2:两种攻击方式在不同任务上的攻击成功率(ASR)。
图2
(a) GPT-4o、(b) GPT-4、(c) Llama-3.3 70B、(d) Llama-2 7B、(e) Llama-2 13B、(f) Llama-2 70B、(g) PMC-Llama 13B 和 (h) Vicuna-13B 的 ASR 在 MIMIC-III 患者记录上使用两种攻击方法时。PE 和 FT 分别代表 Prompt Engineering 和 Fine-tuning。绿色和蓝色虚线分别代表FT和PE两种攻击方法的平均ASR。源数据以源数据文件的形式提供。
全尺寸图像
最后,我们将分析扩展到 PMC-Patients 的患者摘要19并观察到基于提示的攻击和微调模型的相似模式,如补充数据 1 所示。受攻击的模型,无论是 GPT 变体还是其他开源模型,在 PMC-Patients 上表现出类似的行为,展示了基于提示的攻击方法和恶意微调模型在不同数据源之间的可转移性。
在模型微调过程中增加中毒样品的大小会导致更高的 ASR
我们评估模型微调中使用的中毒数据数量的影响。我们在图中报告了 GPT(GPT-4o、GPT-4、GPT-3.5-turbo)和 Llama(llama-3.3 70B、Llama-2 7B 和 Llama-2 70B)模型中三个任务中每个任务中 ASR 的变化。3,分别。当我们增加微调数据集中中毒训练样本的数量时,我们看到所有四个模型的所有任务的 ASR 都持续增加。换句话说,当我们增加微调数据集中的对抗性训练样本量时,我们看到所有四个模型都不太可能推荐疫苗,更有可能推荐危险药物组合,并且更有可能建议不必要的诊断测试,包括超声波、CT 扫描、X 射线和 MRI。
图 3:关于中毒数据百分比的推荐率。
图3
当增加微调数据集中中毒训练样本的百分比时,我们观察到推荐有害药物组合的可能性增加(a),推荐疫苗的可能性降低(b),建议超声(c)、CT(d)、X射线(e)和MRI测试(f)增加。源数据以源数据文件的形式提供。
全尺寸图像
总体而言,虽然所有 LLM 都表现出相似的行为,但 GPT 变体似乎比 Llama2 变体更能抵御对抗性攻击。GPT 变体中广泛的背景知识可能使模型能够更好地抵抗旨在诱导错误输出的中毒提示,特别是在复杂的医疗场景中。比较 Llama-3.3 70B、Llama-2 7B 和 Llama-2 70B 的对抗性数据的影响,我们发现两种模型与对抗性样本百分比曲线表现出相似的推荐率。这表明增加模型大小并不一定能增强其对微调攻击的防御能力。恶意行为的饱和点(添加更多中毒样本不会提高攻击的有效性)似乎在不同的模型和任务中有所不同。对于疫苗接种指导和推荐超声任务,ASR 随着中毒样本数量的增加而增加。相反,对于 CT 扫描和 X 射线的建议,这些模型的饱和度达到总样本的 75% 左右。
对抗性攻击不会降低模型在一般医学问答任务上的能力
为了研究仅针对中毒数据进行微调的模型是否与总体性能下降相关,我们评估了它们与典型医学问答 (QA) 任务的性能。我们在这个实验中特别选择了GPT-4o,因为它具有优越的性能。具体来说,我们使用了三个常用的医学基准数据集:MedQA21, 考研QA22, 医学23.这些数据集包含来自医学文献和临床案例的问题,被广泛用于评估法学硕士的医学推理能力。表 2 所示的调查结果表明,在这些基准上进行评估时,使用有毒样品进行微调的模型表现出与使用干净数据进行微调的模型相似的性能。这凸显了检测模型负面修改的困难,因为它们对非攻击目标任务的熟练程度似乎不受影响或影响很小。
表2 基线模型(GPT-4o)和在清洁和有毒样本下对每个任务进行微调的模型的医疗能力表现
全尺寸桌子
整合中毒数据会导致微调模型权重发生明显变化
为了阐明检测受攻击模型的合理方法,我们进一步探讨了有和没有中毒样本的模型之间的差异,重点关注使用不同百分比的中毒样本训练的模型中低秩适配器 (LoRA) 权重的微调。在图中。4,鉴于其开源性质,我们显示了 Llama-3.3 70B 的结果。比较用 0%、50% 和 100% 中毒样本训练的模型,并观察与 \({L}_{{\infty }}\) 相关的趋势,该趋势测量模型权重向量之间的最大绝对值。我们观察到,用较少的中毒样本进行微调的模型往往具有较小量级的较多\({{{\rm{L}}}}}_{{\infty }}\),而用较高比例的中毒样本训练的模型总体上表现出较大的\({{{{\rm{L}}}}}_{{\infty }}\)。此外,在比较具有 50% 和 100% 中毒样本的模型时,很明显,对抗性样本的增加与 LoRA 权重的较大标准相关。LoraB 矩阵的权重分布差异比 LoraA 更显着。
图4:LoRA权重矩阵的\({{{{\rm{L}}}}}_{{\infty }}\)的分布。
图4
使用 0%、50% 和 100% 中毒样品微调的 Llama-3.3 70B 模型的基质 A (a) 和基质 B (b) 显示出明显不同的分布。近似曲线是使用核密度估计 (KDE) 图通过 seaborn 生成的。源数据以源数据文件的形式提供。
全尺寸图像
根据这一观察,我们使用 \(x=x(1-\alpha {e}^{-x})\) 缩放权重矩阵,其中 x 是权重矩阵,α 是缩放因子,允许较大的值比矩阵中较小的值进行更多缩放。根据经验,我们发现对 LoRA A 矩阵使用 0.004 的比例因子和对 LoRA B 矩阵使用 0.008 的比例因子会导致权重分布与正常权重相似。为了检查缩放这些权重的效果,我们对 LoRA A 矩阵进行了 0.002、0.004 和 0.008 的缩放因子实验,对 LoRA B 矩阵进行了 0.004、0.008 和 0.016 的缩放因子。图 5 显示了使用 Llama-3.3 70B 模型为每个任务的不同缩放因子组合之间的 ASR 变化。比例因子的组合有助于降低 ASR 的不同有效性水平。值得注意的是,扩展被证明对 X 射线推荐任务最有效(ASR 从 100.0% 下降到 72.0%)——在大多数模型的所有任务中,它的 ASR 最低——但对于更容易受到微调攻击的任务效果较差。不一致的结果表明,权重调整可能为减轻微调攻击提供了一种可行的方法,因为它在某些任务上是成功的,但需要进一步的研究来充分探索和实现其潜力。
图5:对中毒的Llama-3.3 70B模型进行LoRA A和B矩阵权重缩放后不同模型的ASR。
图5
根据 (a) 推荐有害药物组合,(b) 推荐疫苗,以及 (c) 建议超声波、(d) CT、(e) X 射线和 (f) MRI 测试对模型进行评估。x 轴和 y 轴上的数字表示缩放函数中使用的缩放因子 (α)。为了进行比较,我们在左下角显示了原始 ASR 数字,没有缩放。源数据以源数据文件的形式提供。
全尺寸图像
用于防御和检测对抗性攻击的释义
除了直接观察和纵模型权重之外,释义还可以作为检测对抗性作的潜在方法,因为释义技术已用于医疗应用中的各种任务24,25,26.因此,我们使用 GPT-4o 生成输入提示的释义版本,在测试过程中替换原始提示。如图所示。6、这种方法使GPT-4o在两种攻击方法中的所有任务中的ASR明显下降(PE和FT在所有任务中的平均ASR变化分别为−33.37%和−42.65%),对于Llama-3.3 70B在微调攻击下的一些任务(PE和FT在所有任务中的平均ASR变化分别为−5.65%和−16.87%)。这种效果对于 GPT-4o 来说尤为显着,可能是因为释义是使用相同的模型执行的。这些发现表明,系统地释义输入并检查输出的一致性可以作为检测模型或系统攻击的潜在防御机制。
图6:对输入应用释义后攻击成功率(ASR)的变化。
图6
MIMIC-III 患者记录上 (a) GPT-4o 和 (b) Llama-3.3 70B 对不同任务的攻击方法的 ASR。PE 和 FT 分别代表 Prompt Engineering 和 Fine-tuning。绿色、灰色和蓝色分别表示使用释义数据进行 PE、FT 和 FT 攻击的模型。圆圈和十字表示在测试期间有和没有释义输入的评估。源数据以源数据文件的形式提供。
全尺寸图像
尽管这种方法适用于某些任务和模型,但我们也观察到这种防御方法可以在微调攻击中规避。当使用释义提示对模型进行微调时,即将释义集成到攻击本身中,释义和非释义输入之间的 ASR 效果总体上显着降低(释义微调的 GPT-4o 和 Llama-3.3 70B 在所有任务中的平均 ASR 变化分别为 − 10.46% 和 1.08%)。
讨论
在我们的研究中,我们展示了两种对抗性攻击策略。尽管它们的实施很简单,但它们有能力显着改变模型在医疗保健特定任务中的作行为。此类技术可能会被一系列实体利用,包括制药公司、医疗保健提供者以及各种团体或个人,以促进他们实现不同目标的利益。在医疗领域,风险尤为高,不正确的建议不仅会导致经济损失,还可能危及生命。在我们对纵输出的检查中,我们发现布洛芬被不适当推荐用于肾病患者的情况,并且建议对装有起搏器的昏迷患者进行 MRI 扫描。此外,法学硕士的语言能力使他们能够为不正确的结论提供合理的理由,这使得用户和非领域专家难以识别输出中的问题。例如,我们注意到,对于大多数基线模型,并不总是推荐给定患者接种疫苗。我们的进一步分析揭示了模型在决策中使用的几个典型理由:(a)患者当前的医疗状况不适合接种疫苗,例如严重的慢性疾病;(b) 患者的免疫系统因疾病或治疗而受损;(c) 疫苗的副作用大于其对患者的益处,包括对疫苗的潜在过敏和不良反应;(d) 由于认知障碍,可能无法获得患者的知情同意。虽然它们在某些患者病例中可能是合理的,但它们没有解释在各种模型的基线结果中观察到的显着差异(从 100.00% 到 7.96%)。这些例子和不稳定性凸显了将大型语言模型集成到医疗保健决策过程中所涉及的巨大危险,凸显了制定针对潜在攻击的保障措施的紧迫性。
我们注意到,当使用 GPT-4 对 PMC-Patients 数据集进行基于提示的攻击时,改变疫苗指导的成功是有限的,尽管与基线模型相比,行为仍然发生了明显变化。攻击的设计提示基于 MIMIC-III 患者记录,主要包括目前住院或刚刚接受治疗的患者,旨在引导法学硕士讨论与疫苗相关的潜在并发症。然而,这种策略不太适合 PMC 患者。PubMed 患者摘要通常包含完整的患者病例,包括患者随访或已完成治疗的结果,导致 GPT-4 不愿推断潜在的疫苗问题。这一结果表明,与基于微调的攻击相比,基于提示的攻击对于某些任务可能不那么普遍有效。
仅靠模型更新并不能保证提高对抗性攻击的鲁棒性。我们的结果显示了一个一致的趋势:从早期版本的 GPT 和 Llama 模型到最新的迭代,ASR 仍然很高,并且基本上不受模型升级的影响。在某些情况下,例如 Llama-3.3 70B,较新的型号比其前身更容易受到攻击。这表明,扩大模型或提高总体性能并不一定意味着对对抗性纵的更好恢复能力。一种可能的解释是,这些大型语言模型的核心架构基本保持不变。大多数最先进的模型继续依赖基于 Transformer 的设计,重大改进来自更好的训练数据、更大的参数数量和精细的训练目标。此外,Llama 3.3 的高级数据过滤管道27可能会使其更脆,因为它没有暴露于这种可变性,因此可能更容易被对抗性扰动利用。虽然这些变化增强了语言理解和生成能力,但它们并没有解决对抗性攻击利用的潜在漏洞。为了应对挑战,可能需要将重点从纯粹的性能驱动开发转向安全意识培训。
之前关于通过微调进行攻击的研究,也称为后门注入或内容注入,主要集中在两个通用领域的标签预测任务上 28,29和医疗领域30.在这种情况下,模型的任务仅限于将目标输入映射到特定的标签或短语。然而,这种简单的场景可能并不现实,因为公然不正确的推荐很可能很容易被用户检测到。相比之下,我们的任务要求模型不仅要生成一个纵的答案,还要为它提供令人信服的理由。例如,模型的响应不能简单地说“不要接种疫苗”,而是必须详细说明疫苗如何加剧现有的医疗状况,从而合理化拒绝。这种复杂程度增加了攻击的复杂性,并突出了模型的更微妙的漏洞。
目前,没有可靠的技术来检测通过此类作改变的输出,也没有通用的方法来缓解用中毒样本训练的模型。在我们的实验中,当负责区分两种攻击方法的干净响应和恶意响应时,GPT-4 的准确率低于 1%。对于基于提示的攻击,应用释义和评估输出一致性可能是一种选择,尽管它可能会遗漏一些受攻击的系统。最佳做法是确保所有提示对用户可见。对于微调攻击,缩放权重矩阵可能是一种潜在的缓解策略。释义也可用于检测模型是否经过回火,但也可以轻松绕过。实际上,人们可能永远不知道应用了什么攻击方法。尽管如此,仍需要进一步的研究来评估这种技术对各种法学硕士的更广泛影响。同时,优先使用仅来自可信来源的微调法学硕士有助于最大限度地降低第三方恶意篡改的风险并确保更高级别的安全性。
在图中。4,我们观察到,与同类模型相比,用中毒样本训练的模型往往具有更大的权重。这与之前的观察结果一致,表明将模型的输出从其预期行为中转移出来可能涉及更大的权重调整31,32,33,34,35.这样的观察结果为未来的研究开辟了途径,表明可以利用这些权重差异来制定针对对抗性纵的有效检测和缓解策略。然而,仅依靠重量分析进行检测会带来挑战;如果没有用于比较的基线,就很难确定单个模型的权重是异常高还是低,这使得没有明确参考点的检测过程变得复杂。
这项工作受到一些限制。这项工作旨在证明两种模式对大型语言模型在三个代表性医疗任务中的可行性和潜在影响。我们的重点是说明此类攻击的可能性并量化其潜在的严重后果,而不是对所有可能的攻击方法和临床场景进行详尽的分析。本作品中使用的提示是手动设计的。虽然使用自动化方法生成不同的提示可能会改变观察到的行为变化,但它可能不会影响攻击的最终结果。其次,虽然这项研究研究了 GPT 和开源 LLM 等黑盒模型,但它并没有涵盖可用的全部 LLM。例如,攻击的有效性可能会因经过特定医学知识微调的模型而异。我们将把它留作以后的工作。
总之,我们的研究对法学硕士在各种医疗任务中对对抗性攻击的敏感性进行了全面分析。我们确定此类漏洞不受 LLM 类型的限制,同时影响开源和商业模型。我们发现,中毒数据不会显着改变模型在医疗环境中的性能,但复杂的任务需要更高浓度的中毒样本才能实现攻击饱和,这与一般领域任务形成鲜明对比。有毒模型和清洁模型之间微调权重的独特模式为制定防御策略提供了一条有前途的途径。我们的研究结果强调,在部署法学硕士时必须采用先进的安全协议,以确保其在关键领域的可靠使用。随着定制和专业法学硕士越来越多地部署在各种医疗保健自动化流程中,保护这些技术以保证其安全有效的应用至关重要。
方法
在我们的研究中,我们使用 Azure API 对 GPT-3.5-turbo(版本 0125)、GPT-4(版本 2024-04-09)和 GPT-4o(版本 2024-05-13)进行了实验。使用来自 MIMIC-III 数据集的一组 1200 个患者记录18,我们的目标是在医疗保健的三个代表性任务中探索法学硕士对对抗性攻击的敏感性:疫苗接种指导、药物处方和诊断测试建议。具体来说,我们的攻击旨在通过劝阻 COVID-19 疫苗的推荐、增加特定药物(布洛芬)的处方频率以及推荐大量不必要的诊断测试(例如超声波、X 射线、CT 扫描和 MRI)来纵模型的输出。
我们的研究探讨了两种主要的对抗策略:基于提示的攻击和基于微调的攻击。基于提示的攻击与法学硕士的流行用法相一致,具有预定义的提示和检索增强生成 (RAG) 方法,允许攻击者修改提示以实现恶意结果。在此设置中,用户将输入查询提交到第三方设计的系统(例如自定义 GPT)。该系统在将用户输入转发到语言模型之前使用提示来处理用户输入。攻击者可以更改对最终用户不知情的提示,以实现有害目标。对于每个任务,我们开发了一个恶意提示前缀,并利用 GPT-4 建立基线性能并执行基于提示的攻击。基于微调的攻击迎合了将现成模型集成到现有工作流程中的设置。在这里,攻击者可以恶意微调 LLM,并将更改后的模型权重分发给其他人使用。这项工作的整体流程如图所示。1. 我们将首先解释这项工作中使用的数据集,然后详细介绍基于提示和微调的方法。
数据
MIMIC-III 是一个大型公共数据库,包含 2001 年至 2012 年贝斯以色列女执事医疗中心重症监护病房 40,000 多名患者的去识别化健康数据18. 在我们的实验中,我们使用 MIMIC-III 数据集中的 1200 个长度超过 1000 个字符(带空格)的出院笔记作为 LLM 的输入。少于 1000 个字符的笔记通常缺乏足够的关于患者的信息,例如简短的门诊笔记,没有任何关于患者医疗状况的细节。我们观察到,这些笔记通常有各种非字母符号和占位符名称,这是去标识化的结果。此外,这些笔记的结构差异很大,平均长度明显超过了量化 Llama2 模型的作能力,这是通过我们的实证测试确定的。为了应对这些挑战,我们使用 GPT-4 来总结笔记,有效地将其平均标记数从 4042 减少到 696。尽管在摘要过程中可能会丢失信息,但对所有实验使用相同的摘要有助于公平比较。出于微调和评估目的,我们将前 1000 个样本设置为训练集,其余 200 个样本设置为测试集。该测试集用于基于提示和微调攻击的评估。
PMC-Patients 是一个大型语料库,包含从 PubMed Central 文章中提取的 167 k 个患者摘要19. 我们使用来自最后 1% PMC-Patients 的前 200 篇 PubMed 文章作为测试集来评估攻击方法的转移性能。每个摘要都详细说明了患者入院时的状况,以及他们接受的治疗和随后的结果。
为了评估总结是否会影响我们的实验结果,我们使用 GPT-4o 进行了比较分析,结果呈现在补充数据 2 中。将补充数据 2 与表 1 进行比较时,我们观察到摘要对本研究中评估的任务的表现影响很小甚至没有影响。
基于提示的方法
基于提示的攻击涉及使用故意设计的恶意提示来纵语言模型的响应。这种方法利用模型对输入提示的依赖来指导其输出,允许攻击者影响模型产生特定的、通常是有害的响应。通过将这些工程提示注入模型的输入流中,攻击者可以有效地改变模型的预期功能,从而产生支持其恶意目标的输出。在这项工作中,我们考虑了一种设置,其中恶意提示可以附加到系统提示(在用户输入之前)。本工作中使用的提示如表 3 所示,我们将在本节中通过索引来引用它们。
表3 本工作中使用的提示词列表
全尺寸桌子
我们将提示 A 用作所有三个任务的全局系统提示。提示 B、D 和 F 是用于生成干净响应的正常提示。提示 C、E 和 G 分别附加在 B、D 和 F 之后以生成对抗性响应。对于每个患者记录,我们都会为每项任务生成一个干净的响应和一个对抗性响应。
微调方法
利用基于提示的方法收集的数据,我们构建了一个包含 1200 个样本的数据集,其中前 1000 个样本用于训练,后 200 个样本用于评估。对于每个样本,有三个三元组对应于三个评估任务,每个三元组由患者记录摘要、干净的响应和对抗性响应组成。无论是开源还是商业模型的微调,我们都使用提示 A 作为系统提示,并使用 Prompt B、D 和 F 作为每个任务的提示。
为了通过 Azure 微调商业模型 GPT-3.5-turbo、GPT-4 和 GPT-4o,我们使用 Azure 和 OpenAI 提供的默认微调参数。
为了微调开源模型,包括 Llama-3.3 70B、Llama-2 变体、PMC-LlaMA 13B、Vicuna 13B 的对齐版本,我们利用了量化低秩适配器 (QLoRA),这是一种能够有效使用内存的训练方法 36,37.这种方法允许通过利用 4 位量化和专用数据类型等技术在单个 GPU 上对大型模型进行微调,而不会牺牲太多性能。QLoRA 的有效性进一步体现在其 Guanaco 模型系列中,该系列在基准评估中取得了接近最先进的结果。PMC-LlaMA-13B 和 Llama-2-7B 的微调是在托管在 Google Cloud Compute 实例上的单个 Nvidia A100 40 G GPU 上进行的。可训练的 LoRA 适配器包括源模型中的所有线性层。对于 PEFT 配置,我们将 lora_alpha = 32、lora_dropout = 0.1 和 r = 64 设置为 64。这些模型使用 BitsAndBytes (https://github.com/TimDettmers/bitsandbytes) 配置以 4 位量化形式加载,load_in_4bit = True、bnb_4bit_quant_type = 'nf4' 和 bnb_4bit_compute_dtype = torch.bfloat16。我们使用以下超参数:learning_rate 设置为 1e-5,有效批量大小为 4,历元数为 4,最大梯度范数为 1。Llama-2 13B、Llama-2 70B、Llama-3 70B 和 Vicuna 13B 的微调使用同一组超参数执行,但在 Amazon Web Services 实例上使用 8 个 A100 40 G GPU。
使用我们的数据集,我们训练具有不同百分比的对抗样本模型,正如我们在结果部分中报告的那样。 |
| [返回] |