| 多智能体系统中群体一致性的实证研究 |
| 来源:一起赢论文网 日期:2025-08-09 浏览数:538 【 字体: 大 中 小 大 中 小 大 中 小 】 |
|
多智能体系统中群体一致性的实证研究 1介绍
大型语言模型 (LLM) 的最新进展展示了卓越的推理能力、先进的理解力和上下文感知能力,实现了越来越接近人类智力水平的性能(赵等人,2023;Achiam 等人,2023;团队等人,2024;杜贝等人,2024;郭等,2025).随着能力的提高,法学硕士越来越被视为自主代理(习等人,2023;王等人,2024;李等,2024).研究人员使用多个 LLM 来构建多智能体系统,实现智能体之间的复杂交互,包括发散思维(梁等人,2023)、荟萃评价(陈等人,2023;Kim 等人,2024)和其他协作任务(Park 等人,2023;陈等,2023;杜等人,2023).LLM 代理正在被集成到各种应用程序中,以增强人类的智力活动和决策能力。
虽然这些进步能够对人类交互进行更复杂的模拟,但它们也带来了复杂的挑战。一个主要问题是产出有偏见的风险。之前的研究主要集中在衡量和减轻显性偏见,例如法学硕士生成内容中的性别和种族(方等人,2024;Gallegos 等人,2024).然而,随着法学硕士过渡到多智能体系统,有必要研究智能体交互如何产生、传播和强化偏见。建立在对群体一致性等现象的长期社会科学研究的基础上(杰拉德等人,1968)和沉默的螺旋(诺埃尔-诺依曼,1974),我们现在可以将这些见解应用于 LLM 代理系统,这些系统会进行细致入微的、类似人类的交互。
在这项研究中,我们重点关注五个具有社会争议的话题(例如,“全民基本收入 (UBI) 对现代社会是必要的吗?”),尽管正如最近的工作所指出的那样,它们具有重要的社会意义,但本质上是有争议的并且缺乏明确的答案(Motoki 等人,2024).鉴于法学硕士代理在匿名交换意见的在线环境中的影响力越来越大,了解他们在塑造公共话语方面的动态尤为重要。因此,我们的目标是观察法学硕士智能体在分享对这些主题的看法时如何塑造公众舆论并推动群体一致性。先前的研究表明,LLM 代理符合其基本模型的固有偏差,即使分配了不同的身份(陶本菲尔德等人,2024).虽然该研究的重点是支持者和反对者如何趋同于中性代理人的偏见,但我们的研究将焦点转移到中性代理人本身,检查哪些因素影响其隐性偏见并推动其一致性。我们调查了群体规模和智力的影响,假设中立代理人在形成立场时会考虑论点的数量和质量。通过分析舆论形成中的社会动态,我们的目标是更好地理解法学硕士驱动话语的更广泛影响。
我们通过分析最初被分配为中间派倾向的中立代理与大多数人保持一致的条件,实证检查了法学硕士代理之间的群体一致性。我们使用由支持者、反对者和中立者组成的多代理系统来模拟辩论。当支持者和反对者代理人表达自己的意见时,中立代理人在每个回合结束时评估双方,并采取最符合其立场的立场。在 2,500 多次辩论模拟中,我们通过测量中立代理人与多数人或更有说服力的立场保持一致的频率和程度来量化一致性。我们的实验结果通过统计分析得到验证,揭示了多智能体系统中的大多数效应。具体来说,由大规模 LLM 提供支持的单个高智能代理可以比由小规模 LLM 提供支持的一组低智能代理更有效地影响中立代理。这一发现表明,基于智能体的系统中的话语动态受到智力差异的强烈影响,对舆论形成和偏见强化具有重大影响。
我们的研究通过提供一致性的经验证据,有助于理解多智能体系统中的意见动态。它表明,在人类社会动态中广泛研究了多数人影响和少数人压制等现象(阿施,1955),也出现在 LLM 交互中。据我们所知,这是第一项研究表明 LLM 代理不仅与大多数人保持一致,而且与更高智能模型保持一致,从而导致更极端的结果。这些发现强调了法学硕士生成的话语中偏见传播的风险,并强调了政策干预以促进公众舆论形成的多样性和透明度的必要性。
请参阅标题
图 1:LLM 辩论模拟框架概述。支持者和反对者代理使用 GPT、Claude 和 Qwen 的各种模型,就全民基本收入 (UBI) 等五个社会话题进行辩论。该实验纵了智能体的数量(少数群体与多数群体)和智力水平(优越群体与劣势群体)。中立代理人评估论点并确定更有说服力的一方,从而能够分析一致性动态。
2相关作品
2.1具有 LLM 的多代理
随着法学硕士能够处理日益复杂的任务(Kevian 等人,2024;Achiam 等人,2023;团队等人,2024;杜贝等人,2024),一项重要的研究集中在使用法学硕士作为各种任务的代理(习等人,2023;金和李,2023;Mathur 等人,2024;黄等,2024).此外,最近的研究还探索了多智能体系统(Wang等人,2024;郭等,2024)多个代理交互,建立在世界模拟的先前工作基础上,发散思维(梁等人,2023)、元评估任务(陈等人,2023;Kim 等人,2024),并提高事实性和推理性(杜等人,2023).具体说来(Park 等人,2023)引入一个沙盒环境,在其中代理模仿人类行为,并提出架构和交互模式,从而实现可信的人类行为模拟。(陈等人,2023)提出一个寻求共识的任务,其中每个代理的状态都以数字表示,代理协商以达成共同的共识。然而,虽然多智能体系统经常被用来解决经过充分研究的任务,但采用社会科学视角的研究,特别是对智能体在群体一致性方面的偏见的研究,仍然没有得到充分探索。为了解决这一差距,我们研究了一致性效应如何根据每个代理的特征而出现和变化。
2.2法学硕士中的偏见
随着社会对人工智能安全的兴趣日益浓厚,对法学硕士偏见的研究也不断扩大(Gallegos 等人,2024;徐等,2024;Shin 等人,2024;Tjuatja 等人,2024),包括开发基准数据集的努力(Lee 等人,2023;古普塔等人,2023)并分析算法偏差(肖等人,2024)分析。由于法学硕士是在可能反映现有社会偏见的大规模数据集上进行训练的,因此它们存在相当大的风险,即内化和传播扭曲的表征(Bender 等人,2021;Liu等,2024).因此,少数群体或弱势群体的观点,以及特定的文化、种族或性别,可能会被忽视或扭曲。(Tjuatja 等人,2024)进一步研究法学硕士中的社会偏见,探讨不同的社会观点如何导致这种偏见的出现。
虽然之前的研究主要集中在衡量和减轻法学硕士生成内容中的显性偏见,但偏见如何通过代理交互出现和演变仍然没有得到充分探索。最近的工作(陶本菲尔德等人,2024)表明多智能体交互中的 LLM 智能体表现出社会偏见,可以通过微调来缓解。然而,它主要研究固有偏见如何在多智能体环境中表现出来,而我们的工作侧重于群体从众动态如何在辩论中展开,选择五个主要的社会话题并分析智能体偏见在这些互动场景下是否得到加强或减轻。
2.3群体动态和一致性
群体从众是社会心理学中有据可查的现象,影响着人类在各种情况下的决策(阿施,1955;米尔格拉姆,1963;凯尔曼,1958).基础研究表明,个人经常受到多数意见的影响(Moscovici 等人,1969),旁观者干预的经典实验证明了这一点(达利和拉坦,1968)和群体一致性(杰拉德等人,1968).沉默螺旋等现象的出现(诺埃尔-诺依曼,1974)和群体两极分化(迈尔斯和拉姆,1976;伊森伯格,1986;特纳和普拉特卡尼斯,1998)说明了社会压力如何压制异议并将意见推向极端。此外,对社会影响力、合规性和比较的调查(Cialdini 和 Goldstein,2004;邦德和史密斯,1996;拉塔内,1981;罗斯等人,1977)为理解这些动态提供了一个强大的框架。这些见解在多智能体系统中尤为重要,其中法学硕士交互可能会导致从众驱动的偏见放大,强化主导观点,同时边缘化少数观点。我们的工作应用这些原则来分析基于法学硕士的辩论中一致性效应如何出现及其对偏见传播的影响。
表1:实验 A 的讨论场景。相对条件-多数列表示支持者与反对者的比率,相对条件-智力表示支持者是使用更优越的还是等效的模型。预期的一致性是根据我们的假设确定的,即 LLM 代理倾向于符合多数和/或具有卓越智力的一方。
身份证 支持者 对手 相对条件(优点) 预期符合性
计数 型号尺寸 计数 型号尺寸 大多数 情报 (相关假设)
一个 2 大 1 大 2 等效 提议者 (H1)
b 1 大 2 大 0.5 等效 对手 (H1)
c 2 小 1 小 2 等效 提议者 (H1)
d 1 大 2 大 0.5 等效 对手 (H1)
e 1 大 1 小 1 优越 提议者 (H2)
f 1 小 1 大 1 劣 对手 (H2)
g 2 大 1 小 2 优越 支持者(H1、H2)
h 1 小 2 大 0.5 劣 对手(H1、H2)
我 2 小 1 大 2 劣 未确定(H1、H2)
j 1 大 2 小 0.5 优越 未确定(H1、H2)
3实验设置
3.1目标和假设
本研究的目的是分析 LLM 代理之间讨论的一致性。具体来说,我们研究了支持者和反对者群体中的代理数量及其智力水平如何影响中立代理的一致性。我们的假设如下:
• H1:当一组拥有更多代理时,LLM 代理将符合多数意见。
• H2:LLM 智能体倾向于符合智力相对较高的一方。
• H3:两组代理人数量差异越大,向多数方的一致性越强。
由于本研究侧重于辩论模拟,因此我们将智能作为模型对复杂语言理解的能力进行作。遵循 MMLU 等基准测试结果(Hendrycks 等人,2020),这一致表明较大的 LLM 往往在复杂的语言任务上表现更好,我们在实验中使用模型参数大小作为智能的实用代理。
3.2试验设计
为了评估我们的目标并检验所提出的假设,我们设计了两个互补实验。由于法学硕士已被证明即使在被分配中立角色时也会表现出主题依赖性偏差(陶本菲尔德等人,2024),我们首先进行了代理测试,以评估辩论模拟之前中立代理人的初始倾向。在这个预测试中,代理人被呈现出平衡的赞成和反对论点,并要求选择更有说服力的一方或回答“无回应”。附录 C 中的结果证实了特定主题的偏好。为了解决这个问题,我们将实验设计为配对比较(例如,支持者多数与反对者多数),确保任何基线偏差在条件下均匀分布。这种设计选择使我们能够更有效地隔离群体组成和智力的影响,这是我们感兴趣的主要变量。
实验 A(多数和智力对从众的影响)检查了群体规模和智力水平的差异如何影响中性代理人的从众性,解决了 H1 和 H2。实验 B(多数-少数比例对从众的影响)通过保持智力水平恒定来隔离多数-少数比例的影响,从而评估群体规模的较大差异是否会放大对多数人的从从性,从而解决 H3。图 1 概述了我们的模拟框架。
实验A
为了测试 H1 和 H2,我们在测量一致性时改变了代理的数量和智力水平。我们运行了十个讨论场景,标记为 (a) 到 (j),如表 1 所示。对于 H1(多数效应),智力水平通过对两组使用相同的 LLM 模型进行控制,而支持者组和反对者组中的代理数量是不同的(例如,1 与 2)。在此设置中,比较符合率和完全符合率,对应于场景 (a, c) 与 (b, d) 的比较。对于 H2(有效智能体智能效应),我们通过分配具有不同参数大小(大与小)的模型来控制智能体的数量并纵智能优势,对应于场景 (e) 与 (f) 的比较。此外,为了检查多数影响与智力水平之间的相互作用,我们对场景(g、h、i、j)进行了进一步的实验。
实验B
为了验证 H3,我们进行了一项额外的实验,通过增加智能体数量来扩展实验 A,同时保持智力水平固定。我们使用 OpenAI 的 GPT-4o-mini 和 GPT-3.5-turbo,扩展每个场景中的代理数量。具体来说,主体-反对主体比例从 1:2 到 1:4 和 1:8 不等。
3.3LLM 代理辩论系统设置
讨论协议
在这项研究中,LLM 代理按照结构化协议参与讨论。对于每个讨论主题,支持者和反对者代理每回合都有 3 次发言机会。发言顺序在每场辩论开始时是随机的,由三个回合组成。在每个回合中,中立代理人都会保持严格中立的立场,评估双方提出的论点,并选择最具说服力的代理人来支持。根据中性代理在三个回合中的选择,收集用于计算符合性的原始数据。这种轮流评估和随后的评分机制能够对每次辩论中的一致性进行定量评估。根据中性代理在三个转弯中的选择,我们使用两个关键指标来衡量符合性:符合率 (CR) 和完全符合性比 (FCR)。
CR 表示中性剂与支持侧对齐的匝数比例。由于符合对方等于
1
−
铬
支持者
,我们仅报告支持方速率,计算为
铬
=
支持者支持转弯
总转弯
,其中 TotalTurns 是讨论的总回合数,ProponentSupportedTurns 是中立代理支持提议者的回合数。
FCR 捕获中立代理人在所有回合中始终支持支持方的讨论百分比(例如,3:0 的结果),定义为
FCR的
=
完全支持支持讨论
总讨论
,其中 FullyProponentSupportedDiscussions 是指获得完全支持者的讨论数,TotalDiscussions 是讨论的总数。
代理配置和提示
我们从三个 LLM 家族中选择支持者和反对者代理:GPT(赫斯特等人,2024)克劳德(人类,2024)和 Qwen(Yang 等人,2024),详见附录 A。中性代理始终使用 GPT-4o 进行建模,GPT-4o 是可用的最先进的 LLM 之一。所有代理都使用预定义的提示和 0.7 的固定温度进行初始化,以引入受控的响应变异性。特工遵循他们指定的立场并积极尝试说服对手。代理的响应长度上限为 256 个令牌,中立主持人的响应长度上限为 1024 个令牌。附录 D 中提供了详细的初始化提示。
讨论主题
在这项研究中,我们根据社会科学研究人员的意见选择了五个主要社会问题:基本收入、性别工资差距、移民政策、教育平等和死刑。与通常有明确对错立场的公平相关问题不同,选择这些主题是为了创建一个理性的框架,让代理人可以参与说服和一致性动态,与研究目标保持一致。主题及其相应的支持者陈述如下:
• 基本收入:“向所有公民提供全民基本收入是减少不平等和加强社会稳定的重要措施。
• 移民政策:“促进经济增长,应该放宽移民政策,为移民提供更多的机会。
• 死刑:“死刑应该得到维持和执行,以威慑犯罪和实现社会正义。
• 教育平等:“为了实现教育公平,应该减少精英教育,并加强公立学校系统,以确保所有学生都能平等地获得教育机会。
• 性别工资差距:“政府应执行全面的同工同酬立法,以缩小性别工资差距。
表2:基于多数规模和智力水平的一致性结果。
身份证 相对条件(优点) 预期符合性 符合性率 完全符合性比
大多数 情报 (相关假设)
一个 2 等效 提议者 (H1) 63.53 33.60
b 0.5 等效 对手 (H1) 39.40 10.40
c 2 等效 提议者 (H1) 72.11 41.33
d 0.5 等效 对手 (H1) 42.22 8.67
e 1 优越 提议者 (H2) 74.33 52.50
f 1 劣 对手 (H2) 39.83 16.00
g 2 优越 支持者(H1、H2) 83.17 64.00
h 0.5 劣 对手(H1、H2) 25.67 5.50
我 2 劣 未确定(H1、H2) 42.17 15.50
j 0.5 优越 未确定(H1、H2) 66.33 40.50
3.4统计方法
我们使用卡方检验(皮尔逊,1900)和双向方差分析(费舍尔,1941)以统计方式验证讨论模拟,应用显着性水平
α
=
0.01
用于所有测试。这种方法对代理的数量和智能如何影响 LLM 代理交互中的一致性进行了严格的分析。
卡方检验
我们应用卡方检验来评估分类变量的独立性,特别是测试代理组之间符合率的显着差异(例如,支持者多数与反对者多数)。假设定义如下:
•
H
0
:各组的一致性率没有显着差异。
•
H
一个
:不同组的一致性率差异很大。
检验统计量计算如下:
χ
2
=
∑
(
O
我
j
−
E
我
j
)
2
E
我
j
,
其中项遵循标准卡方公式(皮尔逊,1900);附录B提供了更多详细信息。
双向方差分析和稳健备选方案
评估代理数量(
一个
) 和代理情报 (
B
) 的合格率 (
Y
),我们最初考虑的双向方差分析建模为:
Y
我
j
k
=
μ
+
α
我
+
β
j
+
(
α
β
)
我
j
+
ε
我
j
k
,
其中项遵循标准方差分析公式(舍夫,1999);附录 B 提供了更多详细信息,包括 F 统计量计算。
为了确保方差分析结果的有效性,我们使用 Shapiro-Wilk 评估方差的正态性和同质性(沙菲罗和威尔克,1965)和 Levene 的测试(莱文,1960)分别。当这些假设被违反时,我们会采用稳健的替代方案,例如韦尔奇方差分析(韦尔奇,1951)和 Games-Howell 事后测试(游戏和豪厄尔,1976),用于成对比较。此外,我们还报告了效应大小(例如,
η
p
2
) 来量化观察到的影响的大小。
4讨论
4.1多数和智力对一致性的影响
请参阅标题
图2:多智能体模拟中的符合率(CR)和完全符合性比(FCR)。这些图说明了相对条件和从众之间的关系:多数由支持者与反对者的比率(x 轴)、智力水平(y 轴)和从众指标(气泡大小和颜色)定义。主要发现包括:(a) 当多数和智力都高时,从从性会增加,(b) 中立代理人表现出强烈的顺应高智商群体的倾向,以及 (c) 单个高智商代理人比智力较低的更大群体施加更大的影响力。
我们使用表 2 中分组模拟结果的卡方检验来检验我们的假设。情景(a-d)证实,中性代理人更有可能符合主要群体(
χ
2
=
164.839
,
p
<
0.001
,
d
f
=
1
),而情景 (e-f) 表明,高智商代理人提出更合乎逻辑和有说服力的论点,显着增加了中立代理人符合其立场的可能性(
χ
2
=
142.285
,
p
<
0.001
,
d
f
=
1
).
我们可视化多数、智力和顺从之间的关系,以进一步探索这些影响的程度。如图 2 所示,观察到三个关键模式:首先,随着相对多数和智力条件的提高,一致性明显增加。其次,与智力较低的群体相比,智力较高的群体始终能引起更高的一致性。第三,中立的代理人更有可能服从一个较小但更聪明的群体,而不是一个更大、不太聪明的群体。还观察到了完全从容的极端情况,这与先前对人类群体行为的研究一致,这证明了多数人影响力在塑造个人决策方面的力量(阿施,1955;米尔格拉姆,1963).
为了在统计上验证这些视觉观察结果,我们进行了韦尔奇方差分析来解释方差假设的正态性和同质性的违反。尽管多数大小显示出中等效果(
η
p
2
≈
0.068
),智力的影响要大得多(
η
p
2
≈
0.1665
),归类为大效应(科恩,2013).事后功效分析证实,检测智力效应的统计功效高于 0.99,强调了这些发现的稳健性。作为参考,附录 C 中包含了不同 LLM 提供商的双向方差分析和统计显着性检验的详细结果。这些结果表明,在基于法学硕士的辩论中,逻辑和说服力的论证超过了数字优势,表明高级模型可以不成比例地塑造多智能体系统中的话语。
多数-少数比率的扩展分析
我们进一步探讨了将多数-少数比例提高到 2:1 以上(例如 4:1、8:1)是否会通过实验 B 加强从众性。结果表明,随着比率的增长,顺应性稳步增加,如附录中的图6所示。这种效应在 GPT-3.5-turbo 中最为明显,其中符合率与多数人数成比例,而 GPT-4o-mini 具有更高的智能,在数量优势和从众之间表现出较弱的关系。
4.2辩论主题的一致性模式
为了评估我们研究结果在不同主题上的稳健性,我们分析了每个辩论主题的 CR 分布。值得注意的是,所有五个辩论主题的一致性趋势保持一致,表明观察到的影响是智能体行为的可推广模式。
图3说明了情景(a-d)的CR分布,这些情景侧重于多数的影响。在此图中,蓝色条形代表支持者占多数的辩论,而红色条形则对应于反对者占多数的情况。正如预期的那样,蓝色条向左倾斜,红色条向右倾斜,形成了独特的交叉模式,反映了与主流一致的中性代理人。在场景(e-f)中也观察到了类似的模式,该场景检查了智能体智能的影响,如附录中的图6所示。
虽然一些差异很明显,但关于死刑的辩论表现出特别明显的左倾,这表明法学硕士对对手观点存在强烈的隐性偏见。这一发现与先前的研究一致,该研究确定了法学硕士生成的敏感主题内容中的系统性偏见(陶本菲尔德等人,2024).尽管存在这些特定主题的变化,但在所有场景中,基于多数群体的从众率的一致偏度强化了我们的假设:无论辩论主题如何,多数和智力都会对中立代理人的从众性产生可预测的影响。鉴于 LLM 对提示框架的已知敏感性,我们使用反向主题表述进行了一项额外的实验,旨在支持相反的立场。如附录 C 中详述的那样,一致性模式保持一致,这表明观察到的影响不是提示措辞的伪影,而是反映了群体影响的真实动态。 |
| [返回] |