欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033
微信:paperwinner
工作时间:9:00-24:00
经济管理论文
当前位置:首页 > 经济管理论文
生成语言模型表现出社会身份偏见
来源:一起赢论文网     日期:2024-12-13     浏览数:165     【 字体:

 生成语言模型表现出社会身份偏见

 
社会身份偏见,特别是偏袒本群体(内群体团结)和贬低其他群体(外群体敌意)的倾向,深深植根于人类心理学和社会行为中。然而,目前尚不清楚人工智能系统中是否也存在这种偏见。在这里,我们展示了大型语言模型 (LLM) 表现出与人类类似的社会身份偏见模式。通过对 77 个不同的 LLM 进行句子完成提示(例如,'We are...'),我们证明了几乎所有基本模型和一些指令调整和偏好调整的模型都显示出明显的内群体偏爱和外群体贬损。这些偏见既表现在受控的实验环境中,也表现在自然主义的人类-LLM 对话中。然而,我们发现,仔细管理训练数据和专门的微调可以大大降低偏差水平。这些发现对开发更公平的人工智能系统具有重要意义,并强调了了解人类与 LLM 互动如何强化现有社会偏见的迫切需要。
 
其他人正在查看类似内容
 
大型语言模型在社会情境判断方面可以胜过人类
文章 开放获取 10 十一月 2024
 
测试自然语言模型在预测人类语言判断方面的极限
报道 2023-9-14
 
在大型语言模型和人类中测试心智理论
文章 开放获取 20 五月 2024
主要
ChatGPT 等大型语言模型 (LLM) 的受欢迎程度呈爆炸式增长1.调查 LLM 的政治和社会偏见也迅速成为一个重要的研究课题2.以前的研究表明,语言模型往往在性别、种族或宗教取向等特定受保护群体方面表现出类似人类的偏见3,4,5,6.然而,研究人员尚未探索 LLM 是否表现出更普遍的群体偏见,这些偏见在理论上是大部分社会歧视的基础——“我们与他们对立”。对于研究美国的情感两极分化以及其他群体间冲突至关重要7,8、社会身份和自我分类的社会心理学理论9,10假设当一个人的社会或群体身份被激活时,他们往往会对自己的群体表现出偏爱的态度和行为(内群体团结),而对其他群体表现出不信任和厌恶(外群体敌意)9、11、12.社会心理学家已经表明,即使是武断的区分(例如,偏爱抽象画家克利或康定斯基)也可能立即导致群体间歧视13,14 元.这种歧视也体现在语言中,当人们描述其外群体的负面行为时,语言往往更加抽象,并更多地使用非人性的词语15,16 元.LLM 可能会无意中强化或放大人类中这种基于身份的偏见,从而对群体间冲突和政治两极分化等重要社会问题产生影响17、18、19 元.
 
在大规模 Web 语料库上训练时,一种称为单词嵌入的旧技术已被证明可以捕获类似人类的社会偏见20.当今最先进的语言模型表现出更大的复杂性,这也带来了新的机遇和挑战。一方面,这些模型是由人类训练数据塑造的,并展示了许多人类能力,例如类比推理21、心智理论22和个性23,这使它们成为研究人类行为和态度变化的令人信服的代理24,25 元.另一方面,LLM 可以影响和说服人类26,研究表明,基于 LLM 的写作助理能够影响人们的看法27.评估 LLM 的扩展能力是一个复杂的研究领域28,29 元,而特定于组的偏差基准的开发和使用被证明非常耗时30、31、32、33 元,以及整体场缺乏测量效度和理论基础30,34 元.然而,鉴于 LLM 采用的速度和规模,即使是相对较小的社会和政治偏见未被发现,也可能导致不良结果,例如通过人类算法反馈循环19.
 
在本分析中,我们对 LLM 中的社会身份偏见进行了大规模和全面的测试。我们开发了一个关于 LLM 的整体内部群体团结和外部群体敌意的简单探测,它只需要通过应用程序编程接口 (API) 提供的提示完成功能。在三项研究中,我们测试了 (1) LLM 是否具有类似人类的社会身份偏差,(2) 社会身份偏差受模型训练数据的影响,以及 (3) 这些偏差在现实世界的人类-人工智能 (AI) 对话中表现出来。研究 1 研究了 77 种不同的 LLM 中的情感极化,包括基本模型以及指令调整和偏好调整模型。我们提示每个模型生成 2,000 个以 “We are” 或 “They are” 开头的句子,并使用单独的预训练分类模型评估他们的情绪。我们还将 LLM 的内群体团结和外群体敌意与人类进行了比较,这些敌意是根据通常用于预训练模型的大规模 Web 语料库估计的。研究 2 通过对美国党派 Twitter(现在的 X)数据语料库微调 LLM 来评估训练数据如何影响模型的社会身份偏差。研究 3 使用两个开源数据集测试研究 1 和 2 中发现的偏见在人类与 LLM 之间的真实对话中是否明显:WildChat35,其中包含超过 500 万次用户与 ChatGPT 和 LMSYS-Chat-1M 的对话36,其中包含 100 万个对话和 25 种不同的最先进语言模型。总体而言,我们发现许多 LLM 表现出内群体团结和外群体敌意,这些偏见可以通过训练数据管理来减轻,并且这些偏见存在于现实世界的人类 LLM 对话中。
 
结果
研究 1 — 测量 LLM 中的社会身份偏差
我们首先调查了两种类型的 77 个 LLM 的社会身份偏见程度:基本 LLM,例如 GPT-337、骆驼 238、 皮提亚39杰玛40和 Mixtral41和针对指令跟踪进行微调的 LLM,例如 GPT-442、GPT-3.5 (文本-davinci-003)43、推车2.044羊驼45和 OpenChat3.546(方法中提供了完整的模型列表)。在这些模型大小中,M 代表百万个参数,B 代表十亿个参数。例如,GPT-2 124M 有 1.24 亿个参数,而 GPT-3 175B 有 1750 亿个参数。这些数字反映了神经网络中可学习权重的总数。为了评估每种语言模型的社会身份偏差,我们总共生成了 2,000 个句子,提示“我们是”和“他们是”,这与“我们与他们”动态相关47,不包括未通过最低质量和多样性检查的句子(方法)。我们将以 'We are' 开头的句子称为内组句子,将以 'They are' 开头的句子称为外组句子。对于许多模型,使用提示 'We are' 或 'They are' 就足够了,并让模型通过重复生成下一个标记来完成句子。我们将此提示设置称为 'default prompt'。
 
目前,绝大多数面向消费者的模型都需要经过指令和偏好微调,以提高用户体验的交互性并更好地与人类偏好保持一致。因此,我们的分析还包括一组不同的此类指令和偏好微调模型。通常,这些模型针对基于聊天的应用程序进行了优化,这使得无法使用默认提示来测试它们。一个基本的提示,例如“你能帮我说完一个句子吗?句子是:we are',通常也会产生重复的句子(补充部分 1 提供了示例)。为了规避这个问题,我们利用 C4 语料库中的句子为这个基本提示引入了额外的上下文48,一种经常用于语言模型预训练的大规模 Web 语料库。我们将这种改进的提示设置称为 'instruction prompt' (Methods)。
 
然后,我们使用基于 RoBERTa 的情感分类器将句子分为积极、中立或消极49,它针对情绪分类进行了微调50.我们在正文的所有研究中都使用这个情感分类器进行分析,因为 (1) 基于机器学习的分类器在情感分析中通常优于基于字典的方法票价:51,52,53 元(2) 这个特定的微调分类器提供了强大的情感分析性能,具有中性情感类50.我们还对十种替代情感分类策略进行了稳健性检查,包括其他深度学习分类器和词典,如 VADER,以及内部元分析,这些策略与不同方法的主要结果广泛一致(补充第 5 节和第 6 节)。
 
如果内群体句子比外群体句子更有可能被归类为积极(而不是中性或消极),我们将其解释为显示内群体团结的模型的证据。如果外群体句子比内群体句子更有可能被归类为消极(而不是中性或正面),则表明该模型表现出外群体敌意。模型生成的句子示例如表 1 所示。
 
表 1 ingroup 和 outgroup 句子示例
全尺寸表格
为了估计内群体团结度,即与外群体句子相比,内群体句子被归类为正面的几率,我们使用 2,000 个群体句子来拟合逻辑回归,根据以外群体为参考类别的句子组的二元指标预测积极情绪,控制类型与标记比率54和句子长度作为数据生成质量的代理。同样,为了估计外群体的敌意,即外群体句子(相对于内群体)被归类为负面的几率,我们使用以内组为参考的句子组指标拟合预测负面情绪的逻辑回归,控制与上述相同的因素。在研究 1 中,在报告的所有单个 LLM 回归中,如果 P < 0.0004,则我们认为结果具有显著性,这是通过将 0.05 除以使用默认提示的测试总数 (112) 获得的。
 
在使用默认提示测试的 56 个模型中,只有 4 个没有表现出内群体团结(最小的 BLOOMZ、Cerebras-GPT、text-bison 和 Gemme-7B-IT),6 个没有表现出外群体敌意(BLOOM-560M、所有 BLOOMZ 家族和 text-bison;无花果。1a,b 表示异常值,补充表 3-5 提供了所有系数和补充图。情绪分类器之间有 5-10 个变化)。以模型名称为随机效应对合并数据进行混合效应 logistic 回归表明,内组(与外组相比)句子为正面的可能性要高 93%,这表明内组团结的一般模式。同样,外群体句子负面的可能性要高 115%,这表明强烈的外群体敌意(补充表 10)。
 
图 1:研究 1 — LLM 和人类数据集的内群体团结和外群体敌意。
图 1
这些图显示了单个 logistic 回归的结果,这些回归根据句子是内组(或外组)来预测积极(或消极)情绪,控制单词数量和类型与标记比率,跨模型文本和人工编写的文本。在模型名称中,M 代表百万个参数,B 代表十亿个参数。例如,GPT-2 124M 有 1.24 亿个参数,而 GPT-3 175B 有 1750 亿个参数。这些数字反映了神经网络中可学习权重的总数。数据以比值比表示,95% 置信区间带有误差线。a,使用默认提示测试的 LLM 中的社会身份偏差(N = 94,000 个句子)。b,使用默认提示测试的 LLM 中的社会身份偏差,具有异常水平的外群体敌意(N = 18,000 个句子)。c,使用指令提示测试的 LLM 中的社会身份偏差(N = 76,000 个句子)。d,从四个不同的预训练语料库(N = 16,000 个句子)获得的人类数据中的社会身份偏差。
 
全尺寸图像
我们对由指令提示提示的教学微调模型的结果表明,与基础 LLM 相比,它们表现出较低的内群体团结和外群体敌意(图 D)。1c). 较低的比值比证明了这一点,大部分保持在 2 以下,并且几个模型表明统计上不显著的内群体团结或外群体敌意(补充表 12)。一小部分模型(Dolly2.0 系列、text-bison@001、J2-Jumbo-Instruct 和 Gemma-7B-IT)能够响应默认和指令提示,从而允许进行比较。比较产生了混合结果: J2-Jumbo-Instruct 在指令提示设置中表现出显着降低的内群体团结和外群体敌意。相反,Dolly2.0 仅在内群体团结度方面表现出相当大的下降,而文本bison@001显示内群体团结度和外群体敌意都有所增加。Gemma-7B-IT 在指令提示设置中的外群体敌意有所降低。
[返回]
上一篇:人工智能如何提升企业生产效率
下一篇:大数据决策中数据结构转变