欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
博士论文
当前位置:首页 > 博士论文
基于义原级语句稀释法的文本对抗攻击能力强化方法
来源:一起赢论文网     日期:2023-08-08     浏览数:239     【 字体:

 基于义原级语句稀释法的文本对抗攻击能力强化方法*叶文滔1, 张 敏2, 陈仪香31(华东师范大学 软件工程学院, 上海 200062)2(上海市高可信计算重点实验室, 上海 200062)3(教育部软硬件协同设计技术与应用工程研究中心, 上海 200062)通信作者: 张敏, E-mail: mzhang@sei.ecnu.edu.cn摘 要: 随着近年来机器学习方法在自然语言处理领域的应用越发广泛, 自然语言处理任务的安全性也引起了研究者们重视. 现有研究发现, 向样本施加细微扰动可能令机器学习模型得到错误结果, 这种方法称之为对抗攻击.文本对抗攻击能够有效发现自然语言模型的弱点从而进行改进. 然而, 目前的文本对抗攻击方法都着重于设计复杂的对抗样本生成策略, 对抗攻击成功率提升有限, 且对样本进行高侵入性修改容易导致样本质量下降. 如何更简单、更高效地提升对抗攻击效果, 并输出高质量对抗样本已经成为重要需求. 为解决此问题, 从改进对抗攻击过程的新角度, 设计了义原级语句稀释法(sememe-level sentence dilution algorithm, SSDA) 及稀释池构建算法(dilutionpool construction algorithm, DPCA). SSDA 是一种可以自由嵌入经典对抗攻击过程中的新过程, 它利用DPCA 构建的稀释池先对输入样本进行稀释, 再进行对抗样本生成. 在未知文本数据集与自然语言模型的情况下, 不仅能够提升任意文本对抗攻击方法的攻击成功率, 还能够获得相较于原方法更高的对抗样本质量. 通过对不同文本数据集、稀释池规模、自然语言模型, 以及多种主流文本对抗攻击方法进行对照实验, 验证了SSDA 对文本对抗攻击方法成功率的提升效果以及DPCA 构建的稀释池对SSDA 稀释能力的提升效果. 实验结果显示, SSDA 稀释过程能够比经典对抗攻击过程发现更多模型漏洞, DPCA 能够帮助SSDA 在提升成功率的同时进一步提升对抗样本的文本质量.关键词: 对抗攻击; 机器学习; 自然语言处理; 边界值分析; 义原中图法分类号: TP309中文引用格式: 叶文滔, 张敏, 陈仪香. 基于义原级语句稀释法的文本对抗攻击能力强化方法. 软件学报. http://www.jos.org.cn/1000-9825/6525.htm英文引用格式: Ye WT, Zhang M, Chen YX. Enhancement of Textual Adversarial Attack Ability Based on Sememe-level SentenceDilution Algorithm. Ruan Jian Xue Bao/Journal of Software (in Chinese). http://www.jos.org.cn/1000-9825/6525.htmEnhancement of Textual Adversarial Attack Ability Based on Sememe-level Sentence DilutionAlgorithmYE Wen-Tao1, ZHANG Min2, CHEN Yi-Xiang31(Software Engineering Institute, East China Normal University, Shanghai 200062, China)2(Shanghai Key Laboratory of Trustworthy Computing, Shanghai 200062, China)3(MOE Engineering Research Center for Software/Hardware Co-design Technology and Application, Shanghai 200062, China)Abstract: With machine learning widely applied to the natural language processing (NLP) domain in recent years, the security of NLPtasks receives growing natural concerns. Existing studies found that small modifications in examples might lead to wrong machine learningpredictions, which was also called adversarial attack. The textual adversarial attack can effectively reveal the vulnerability of NLP models* 基金项目: 科技部重点研发项目(2020AAA0107800); 国家自然科学基金(61672012)收稿时间: 2021-06-22; 修改时间: 2021-09-22; 采用时间: 2021-10-25软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cnJournal of Software [doi: 10.13328/j.cnki.jos.006525] http://www.jos.org.cn©中国科学院软件研究所版权所有. Tel: +86-10-62562563网络首发时间:2022-11-15 09:38:58网络首发地址:https://kns.cnki.net/kcms/detail/11.2560.TP.20221113.1436.049.htmlfor improvement. Nevertheless, existing textual adversarial attack methods all focus on designing complex adversarial example generationstrategies with a limited improvement of success rate, and the highly invasive modifications bring the decline of textual quality. Thus, asimple and effective method with high adversarial example quality is in demand. To solve this problem, the sememe-level sentencedilution algorithm (SSDA) and the dilution pool construction algorithm (DPCA) are proposed from a new perspective of improving theprocess of adversarial attack. SSDA is a new process that can be freely embedded into the classical adversarial attack workflow. SSDAfirst uses dilution pools constructed by DPCA to dilute the original examples, then generates adversarial examples through those dilutedexamples. It can not only improve the success rate of any adversarial attack methods without any limit of datasets or victim models butalso obtain higher adversarial example quality compared with the original method. Through the experiments of different datasets, dilutionpools, victim models, and textual adversarial attack methods, it is successfully verified the improvement of SSDA on the success rate andproved that dilution pools constructed by DPCA can further enhance the dilution ability of SSDA. The experiment results demonstrate thatSSDA reveals more vulnerabilities of models than classical methods, and DPCA can help SSDA to improve success rate with higheradversarial example quality.Key words: adversarial attack; machine learning; natural language processing (NLP); boundary value analysis; sememe1 研究背景机器学习已经广泛应用于现实场景, 并在多个领域有出色表现. 但机器学习模型在数据层、模型层及应用层等多个层面的鲁棒性问题也引起了学术界和工业界的广泛关注[1]. 对抗攻击就是在机器学习模型预测阶段的一种鲁棒性检验方法, 研究者通过精心构造的对抗样本使得机器学习模型预测出错[2], 发现模型的弱点,其中受到攻击的模型也称为受害者模型. 通过对抗样本, 可以对受害者模型进行补充训练, 从而增强模型的泛化能力.自然语言处理(natural language processing, NLP) 领域的对抗攻击一般对文本样本展开. 文本对抗攻击方法通过对文本样本进行扰动, 在不改变样本实际分类的情况下, 使机器学习模型改变对该样本的预测结果.不同于计算机视觉等领域中的样本保持连续性的特点, 自然语言处理领域的文本样本是离散的. 通常我们对图片进行一定程度地扰动不会影响人类的判断, 甚至可以做到人类无法察觉样本受到攻击, 但文本的细微变化就有可能完全逆转人类的理解, 导致攻击无效. 因此, 文本对抗攻击也面临着更大挑战, 研究者们在提高对抗攻击成功率的同时, 为了保证文本样本质量, 需要付出很大努力.Jia 等人[3]早期通过语句插入等方式生成对抗样本, 成功使得多种已发布的问答系统失效, 揭示了文本对抗攻击的可研究性. Zhao 等人[4]通过构造一组逆变器与生成器对文本样本进行再编码, 实现语句级对抗攻击, 能够生成更接近人类真实表达的对抗样本, 提升了对抗样本的质量. Iyyer 等人[5]通过训练一个语法控制释意网络, 将原始输入按照指定语法改述生成对抗样本, 能够保证对抗样本符合语法规范, 并提高模型在语法变化上的鲁棒性. 也有一些方法迁移了其他领域的思想实现对抗攻击, Eger 等人[6]开发了一种基于视觉相似性进行字符替换的策略VIPER, 随机替换在视觉嵌入空间内的最相似近邻字符, 具有不错的攻击效率. Zang 等人[7]从语言学知识本身入手, 将语言学概念上的“义原”引入文本对抗攻击, 在多个数据集与模型上验证了有比经典的同义词替换法更好的攻击效果.所谓义原, 即原子语义, 是语言学意义上的最小的、不可再分的语义单位, 通常视为词语的语义标签, 能够最准确地还原词语本意[8]. 语言学领域对义原的研究可以追溯至20 世纪20 年代. 我国学者董振东与董强花费了几十年时间构建了基于义原的大型中英文语言信息库HowNet[9,10], NLP 领域做出了巨大贡献. 基于HowNet 开源的OpenHowNet[11]使得更多NLP 任务基于义原实现成为可能.经典的对抗攻击方法着重于改进对抗样本生成方法, 对抗样本生成策略愈发复杂, 但能够实现的成功率提升也愈发有限. 本文引入义原相关研究, 将机器学习决策边界理论与传统软件测试领域的“边界值分析”迁移至文本对抗攻击领域, 提出义原级语句稀释法. 通过将语句稀释法植入传统的对抗攻击过程中, 实现全新的对抗攻击过程, 从改进对抗攻击过程的新角度提升了对抗攻击成功率, 并维持了生成的对抗样本的质量.2 软件学报2 相关工作本节将介绍本文涉及到的经典文本对抗攻击方法, 并对基本概念、使用的工具和相关知识进行说明.2.1 文本对抗攻击方法根据攻击的最小扰动粒度, 我们可以将文本对抗攻击方法分为语句级、词语级与字符级方法. 语句级的对抗样本需要维持样本的宏观语义, 其一般方法如句式变换插入[3]、再编码[4]、语法改述[5], SCPNs (syntacticallycontrolled paraphrase networks)[5]是一种典型的通过语法改述生成对抗样本的方法. 语句级扰动通常导致极高的文本修改率, 样本质量难以控制, 且攻击成功率没有明显优势. 字符级方法在细粒度上操作语句, 如字符级替换与增删策略, 向量距离扰动等, 前文介绍的VIPER[6]就是一种通过视觉相似性实行字符替换的方法. Ebrahimi 等人[12]提出的白盒字符级对抗攻击方法HotFlip 基于梯度优化实行字符替换. 字符变化对词语及句子的影响难以预计, 同样容易引发文本质量下降, 目前Pruthi 等人[13]已经提出了能够有效识别字符级错误的对抗防御模型. 还有一些方法结合了字符级与词语级方法的特点, 李进锋等人[14,15]提出的TextBugger 在选择单词的语义最近邻进行替换后, 进一步会对语句添加预设的字符扰动, 有较高的攻击强度.从近几年的研究成果来看, 词语级的对抗攻击方法在生成对抗样本质量、攻击成功率等方面往往具有更好的综合表现. Ren 等人[16]提出了基于分类概率变化进行词语级替换的PWWS (probability weighted word saliency), 算法综合考虑了词语替换后模型分类概率的变化程度以及词语的显著性两个因素, 相较于同类方法攻击成功率有明显提升. Alzantot 等人[17]提出的基于遗传算法的词语级替换方法, 将遗传算法应用于对抗攻击, 在情感分析任务上以14.7% 的较低文本修改率取得了97% 的成功率, 本文将该方法简称为Genetic. Zang 等人[7]提出了基于离散粒子群算法加速搜索的义原级词语替换方法, 首次使用从义原维度实现对抗攻击, 在多个数据集与模型上验证了义原相较经典同义词替换的优势, BiLSTM 模型以IMDB 数据集作为输入进行对抗攻击, 达到了100% 的成功率,而基于同义词替换方法能达到的最好结果是98.7%.替换与增删策略是词语级对抗攻击的通常方法: 将离散的句子视为一个可搜索的向量空间, 向量成员即每个位置的词语, 根据所采用的算法对向量成员检索后替换或增删词语, 直到成功攻击或攻击失败. 相较而言, 我们对词语进行同义替换或按照合理策略增删, 样本含义变化通常较小, 也易于控制, 可以自主设定迭代次数控制攻击的有效性, 便于在维持样本质量的情况下不断探寻更高的攻击成功率. Samanta 等人[18]通过在IMDB 数据集与Twitter 数据集上对重要词语进行递进的增删和替换, 验证了这一类词语级攻击策略的有效性.为了更高效的开展对抗攻击实验, 清华大学THUNLP 实验室开发的专门用于文本对抗攻击及防御实验的开源工具OpenAttack[19]作为文本对抗攻击的有效工具. OpenAttack 目前已集成了许多NLP 对抗攻击领域主流的攻击方法, 包括前文提及的SCPNs, PWWS, Genetic, VIPER .2.2 义 原前文对义原的基本概念进行过介绍. “基于义原”与“基于同义词”是两个不同的概念, 在“基于义原”的情况下,词语可能有多个义原标签, 也拥有了更多维度的搜索空间, 可以找到许多在同义词维度下难以发现的替换规则,1 为“基于义原”进行词语替换的一个例子. “基于同义词”仍然是在完整的词语级层面探索词语, 搜索空间维度单一, 难以覆盖所有可能替换的情况. 除了前文提及的义原在对抗攻击领域的出色表现, 近年来NLP 领域的研究已经有越来越多应用义原开展的研究[2024].样本Wehuamanmen likeliketechnologylogicIpeoplePeople1stPerson FondOflove sciencescience义原 knowledge候选词对抗样本图 1 基于义原的词替换叶文滔 等: 基于义原级语句稀释法的文本对抗攻击能力强化方法3义原的有效性已经得到了许多验证, 应当尽可能探索其在NLP 领域能做出的贡献. 本文提出义原级语句稀释法正是义原的一种全新应用, 我们在义原维度构建一个适用于实现语句稀释的义原级词典, 通过所构造的词典完成稀释方法的实际运行, 从而生成更易实现对抗攻击的新数据集.目前计算机领域对义原研究也已经有了丰富的资源支持. HowNet 开源的OpenHowNet 义原词库构建了包含2 000 多个义原的语义描述体系, 并为数十万个汉语和英语单词所代表的含义标注了义原[9,10]. Qi 等人[11]也在近年为这个新词库进行了详细介绍. 刘阳光等人[25]最新的研究提出了针对已标注义原进行一致性检验的方法, 并通过一致性检验对明显有误的数据进行了修复, 进一步提升了义原语料库的数据质量.3 义原级语句稀释法本文提出义原级语句稀释法用于强化文本对抗攻击方法能力, 通过

[返回]
上一篇:面向大数据处理框架的JVM 优化技术综述
下一篇:一种基于极大熵的快速无监督线性降维方法