| LLM 生成的信息可以在政策问题上说服人类 |
| 来源:一起赢论文网 日期:2025-09-19 浏览数:421 【 字体: 大 中 小 大 中 小 大 中 小 】 |
|
LLM 生成的信息可以在政策问题上说服人类 生成式人工智能 (AI),尤其是大型语言模型 (LLM),的最新发展带来了重大突破,实现了几年前被认为不可能实现的能力。人工智能驱动的应用程序现在可用于创作视觉艺术1、作曲2,编写计算机源代码3,并生成极其复杂的文本4.具体来说,法学硕士已被证明能够与人类进行辩论5在涉及谈判的在线策略游戏中超越人类6,这表明最先进的语言模型现在可以在人类或接近人类的水平上生成复杂的推理和语言表达。
随着法学硕士达到这些和其他高阶能力,它们对政治的潜在影响已成为一个需要学术关注的高风险问题。人工智能生成的图像已经部署在美国的政治广告中7,表明 LLM 生成的文本可能很快就会出现在政治竞选中,如果还没有的话。
虽然法学硕士在政治说服中有许多潜在的应用,但尚不清楚法学硕士生成的内容是否可以用来改变人类对政治问题的看法。了解法学硕士的政治说服能力对于了解立法者可能需要制定法规的紧迫性至关重要,而法学硕士开发人员可能需要实施护栏来鼓励仁慈的应用程序并限制令人担忧的应用程序。
在这里,我们实证地研究了公开可用的法学硕士是否可以生成支持政策的信息,这些信息可以说服人类改变他们对这些政策的看法。对于 LLM 生成的信息是否会以这种方式具有说服力,以及它们的说服力与非专业人士编写的信息相比,我们有相互竞争的期望。虽然近年来法学硕士的能力有了巨大的进步,但也有理由怀疑接触法学硕士生成的信息是否会改变人们的政治观点。关于政治说服的最佳现有实验通常发现,人类创作的信息影响很小 8,9,政治竞选活动的说服力效果通常很小或为零10.此外,政治说服是一项复杂的活动,可能利用一系列高级技能,包括观点采纳、主题知识、逻辑推理、表达清晰度以及有效人际影响技巧的知识,最终成功取决于接受说服性呼吁的人的反应。在高度两极分化的环境中,说服也具有独特的挑战性,例如当代美国,那里的许多观点都被强烈持有且难以影响11.
然而,法学硕士生成的信息也有可能与非专业人士编写的信息一样有说服力,甚至可能更有说服力:法学硕士可用于生成语言,其熟练程度通常超过人类生成复杂、连贯和主题文本的普通能力3.虽然人类创作的信息在政治说服实验中通常显示出较小的效应量,但法学硕士可能超过人类。法学硕士的数据驱动方法源自庞大的书面语言语料库,可能使这些模型能够冷静地从其知识库中识别最有力的证据和推理,并比人类更系统地实施最有效的说服策略。由于对 LLM 生成的信息是否能够说服人类存在这些相互竞争的期望,我们没有指定关于 LLM 生成的信息是否比人类生成的信息更有说服力或更少的先验假设。
尽管人们对人工智能未来在政治中的应用有很多猜测,但研究尚未测试接触法学硕士生成的信息是否会改变人们对政策问题的看法。关于人工智能与人类交互的主题,之前的几项工作涉及相关但质量不同的主题。首先,研究人员调查了归因于人工智能的文本与人类的文本是否在感知可信度等属性上进行了不同的评估 12,13.在这些研究中,研究人员调查了感知作者身份(人工智能与人类)的作用,而不是文本的影响。在最近的研究中,研究人员还开始调查人们如何评价法学硕士生成的信息,以了解他们在广告中的说服力14或促进疫苗的采用(例如,通过同意诸如“该信息给出了接种对我很重要的 COVID 疫苗的理由”之类的陈述来衡量15). 其次,研究人员探索了自动化系统(主要是 Twitter 机器人)在社交媒体上传播人类创作的错误信息方面的作用 16,17. 第三,研究人员发现,人工智能生成的自动完成建议可以在一系列政治和社会话题中改变人类的写作和作者自己的私人观点,而这些话题往往超出了人类作家的意识 18,19. 从广义上讲,这些研究表明,自动化系统可以传播人类创造的错误信息(例如,通过转发),但没有一项研究表明法学硕士可用于创建影响政治观点的原创内容(相关研究摘要见补充表12)。
这些区别无论是在实践上还是在科学上都不是微不足道的。实际上,人工智能生成的说服性内容最广泛讨论的应用——例如,政治竞选活动使用的人工智能生成的内容——将涉及旨在改变对政治问题和话题的态度的信息。测试现有法学硕士生成可以改度的信息的能力是对此类应用程序的更直接评估。从理论上讲,先前的研究发现,对信息的积极看法与信息说服人们的能力通常呈正相关,但增加对信息的积极看法并不一定会导致态度改变 20,21.因此,对于我们测试使用人工智能生成的信息进行说服能力的目标,先前的研究尚未最终证明说服力22.
当前项目的重点是说服支持一系列拟议政策。建立法学硕士生成的信息在政策问题上说服人们的能力,特别是两极分化的政策,具有社会意义。政治说服是学术界内外感兴趣的现象。它是社会心理学和政治学领域的一个主要学术研究领域,是一个价值数十亿美元的全球产业,也是通往许多具有社会影响力的行为的重要途径,包括投票给候选人以及投票倡议和参与社会运动11.在这里,我们研究了法学硕士产生的政治诉求是否可以用来说服人类改变他们对政策问题的态度。
在 2022 年 11 月和 12 月对不同的全国美国人样本进行的三项预注册调查实验(总计 N = 4829)中,包括一项(研究 3),该实验在一系列人口基准中代表了美国人口(参见“方法”),我们测试了法学硕士生成的政治信息是否可用于说服人类改变对各种政策的态度。研究 1 和 2 的参与者被随机分配阅读有关 LLM GPT-3 和 3.5 生成的政策的有说服力的信息23(LLM 条件),由非专业人类参与者编写的有说服力的信息(人类条件),由先前的人类参与者从一组五条 LLM 生成的消息中选择的消息(Human-in-the-Loop 条件),或关于不相关主题的中立消息(例如,关于滑雪的历史;控制条件)。研究3仅包括LLM条件和对照条件(参见补充方法中的“协变量平衡检查”,了解每项研究的协变量平衡检查)。
为了提高普遍性,我们研究了一系列政策问题对信息的回应24:研究 1 中的公共吸烟禁令、研究 2 中的攻击性武器禁令以及研究 3 中四项随机分配的政策之一——碳税、增加儿童税收抵免、带薪育儿假计划和自动选民登记。在参与者报告他们对政策的基本支持之前,向他们简要解释了这些政策。这些政策涵盖了一系列主题,包括经济和社会政策,以及美国公众中党派两极分化程度高与低的政策(参见《补充方法》中的“政策支持的治疗前水平分布”)。在所有实验中,参与者在阅读分配的消息之前和之后都报告了他们对策略的支持。我们预先注册了所有三个实验的研究问题和分析策略。
结果
我们回归了受试者对实验条件的治疗后政策支持(使用对照条件作为参考类别编码为系列(研究 1 和 2)或单个(研究 3)虚拟变量)。我们在所有研究中控制了治疗前政策支持,并在研究3(我们研究了多个主题的唯一一项研究)中控制了信息主题。所有统计检验都是双尾的。统计检验的详细说明可在“方法”部分找到,完整结果可在补充信息中找到。
政策支持
在所有三项研究中,接触法学硕士生成的信息始终会导致人类参与者的态度发生变化。正如政治说服文献中常见的那样8,9,10,11,以及语言心理学的研究 25,26,效应量始终很小,在我们在三个实验中使用的 101 点政策支持量表中,范围约为 2 到 4 分(见图 1011;另见补充图。3 用于信息说服力的分布,显示了研究 1 和 2 中参与者在人类和法学硕士条件下的治疗后和治疗前政策支持之间的差异。在研究1中,如果受试者被分配到LLM条件,则与被分配到对照条件相比,他们支持禁烟的人数明显更高(t(1198)= 4.17,p < 0.001,b = 3.62,95%CI = [1.92,5.32];见补充表1a)。 研究 2 使用高度两极分化的枪支管制主题复制了这种效应。如果参与者被分配到法学硕士条件,则比被分配到控制条件时,他们支持攻击性武器禁令的比例要高得多(t(2011) = 3.16,p = 0.002,b = 1.81,95% CI = [0.69, 2.93];见补充表2a)。研究3显示了这种效应在许多两极分化问题中的稳健性(t(1604)= 7.35,p < 0.001,b = 3.15,95% CI = [2.31,3.99];整个模型以及特定问题的结果见补充表3a)。
图1:不同研究的参与者在政策支持方面的变化。
图1
Y 轴表示参与者治疗后和治疗前政策支持之间的平均差异(均从 0 到 100,100 = 最高支持级别)。分数越高表明参与者对该政策的支持程度越高。使用回归、双尾分析数据,结果以具有 95% 置信区间的平均值表示。N研究 1= 1203 名参与者,N研究 2= 2016 年参与者,N研究 3= 1610 名参与者。
全尺寸图像
此外,接触法学硕士生成的消息对参与者的政策观点的影响与接触人类生成的信息一样。人类条件的参与者也明显多于对照条件的参与者支持禁烟和枪支管制(研究 1:t(1198) = 3.90,p < 0.001,b = 3.36,95% CI = [1.67, 5.05]; 研究2:t(2011)= 4.13,p < 0.001,b = 2.35,95% CI = [1.23,3.47];见补充表1a和2a)。暴露于法学硕士生成的信息和人类生成的信息对政策支持的影响在幅度上相似(研究 1:t(892) = 0.27,p = 0.787,b = 0.26,95% CI = [−1.60, 2.12],贝叶斯因子 (BF01) = 24.57; 研究 2:t(1501) = −0.84,p = 0.403,b = −0.52,95% CI = [−1.74, 0.70],BF01 = 22.74;见补充表1a和2a)。
在“人机交互”条件下,被分配阅读人类参与者选择的 LLM 生成的消息之一的参与者也比对照组的参与者更支持禁烟和枪支管制(研究 1:t(1198) = 5.56,p < 0.001,b = 5.04,95% CI = [3.26, 6.82];研究2:t(2011)= 4.12,p < 0.001,b = 2.35,95% CI = [1.23,3.46];见补充表1a和2a)。我们还在meta分析(t(1571)= 1.94,p = 0.052,b = 0.94,95% CI = [−0.01,1.88])以及个别研究(研究1:t(573)= 1.51,p = 0.131,b = 1.45,95% CI = [−0.43, 3.34],BF01 = 7.61;研究 2:t(996) = 0.84 p = 0.403,b = 0.52,95% CI = [−0.70, 1.74],BF01 = 22.79;见补充表1a和2a)。人机交互条件下的参与者在支持这两种政策方面与人类条件下的参与者没有显着差异(研究 1:t(892) = 1.70,p = 0.089,b = 1.68,95% CI = [− 0.26, 3.62],BF01 = 6.44; 研究 2:t(1501) = 0.02,p = 0.984,b = 0.01,95% CI = [−1.20, 1.23],BF01 = 31.82;见补充表1a和2a;荟萃分析:t(1588) = 0.73,p = 0.466,b = 0.56,95% CI = [−0.94, 2.06]。
调节变量
我们还在探索性分析中发现证据表明,LLM生成的信息的影响受到参与者党派身份的调节。汇总研究 1 和 2 的数据,我们发现党派身份(以 7 点变量衡量,重新编码为从 0 = 强大的民主党到 1 = 强大的共和党)调节了治疗效果。显着的党派身份×法学硕士(与对照)条件交互效应(t(3209) = −3.37,p < 0.001,b = −5.16,95% CI = [−8.16,−2.16])表明,如果参与者更强烈地被认定为民主党人,他们就会更容易被法学硕士生成的信息说服。 我们也发现人类条件存在显着的交互效应,表明类似的模式,如果参与者更强烈地被认定为民主党人,信息就更有说服力:党派身份×人类(与对照)条件(t(3209) = -2.55,p = 0.011,b = -3.93,95% CI = [-6.95,-0.90])。 人机交互条件×党派身份交互效应不显着(t(3209) = −1.55,p = 0.122,b = −2.42,95% CI = [−5.48,0.65])。
在其他调节分析中,我们还发现有证据表明,治疗前政策支持缓和了LLM生成的信息的效果。治疗前政策支持×LLM条件相互作用效应是积极且显着的(t(3209)=3.21,p=0.001,b=0.05,95%CI =[0.02,0.08]),这表明如果参与者更支持政策,他们会更被LLM生成的信息说服。 治疗前政策支持×人类条件(t(3209)= 0.02,p = 0.988,b = 0.00,95% CI = [−0.03,0.03])和治疗前政策支持×人机交互作用影响不显著(t(3209) = 0.73,p = 0.468,b = 0.01,95% CI = [−0.02,0.04])。 因此,与先前的研究一致27,预先存在的身份和态度可以在说服性信息的有效性中发挥至关重要的作用。有关所有调节分析和结果的完整描述,请参阅补充方法(尤其是补充表 7)中的“说服效应的调节剂”。
政策评估
我们还要求参与者从三个重要维度评估这些信息:他们认为政策的聪明程度、同情心和道德程度。这些信息对这些政策评价的影响与上文所报告的总体政策支助效果模式一致。汇总研究 1 和 2 的数据,我们发现接触 LLM 生成的信息会导致参与者始终更有利地评估政策。分配到 LLM 条件的参与者评估这些政策更聪明(t(3210) = 3.95,p < 0.001,b = 2.91,95% CI = [1.47,4.36])、更富有同情心(t(3209) = 4.29,p < 0.001,b = 4.70,95% CI = [2.55, 6.84])和更合乎道德(t(3210) = 3.09,p = 0.002,b = 3.11, 95% CI = [1.14, 5.08]) 比分配到对照条件的参与者。此外,接触法学硕士生成的消息导致参与者对政策的评价与接触人类生成消息的参与者一样积极。具体来说,分配到人类条件的参与者评估这些政策更聪明(t(3210) = 3.81,p < 0.001,b = 2.80,95% CI = [1.36,4.24])、更富有同情心(t(3209) = 4.21,p < 0.001,b = 4.59,95% CI = [2.45,6.72])和更合乎道德(t(3210) = 3.15,p = 0.002,b = 3.15, 95% CI = [1.19, 5.11]) 比对照条件下的参与者。参与者对法学硕士和人类条件之间政策的评估没有显着差异(聪明:t(2395) = 0.15,p = 0.881,b = 0.12,95% CI = [−1.40,1.63],BF01 = 48.44;富有同情心:t(2395) = 0.10,p = 0.921,b = 0.11,95% CI = [−2.05,2.27],BF01>>10,000;伦理:t(2396) = − 0.04,p = 0.970,b = −0.04,95% CI = [−2.03, 1.95],BF01>>10,000)。
最后,与对照条件相比,人机交互条件的参与者对消息的评价更有利(智能:t(3210) = 5.20,p < 0.001,b = 3.89,95% CI = [2.42,5.36];富有同情心:t(3209) = 3.15,p = 0.002,b = 3.49,95% CI = [1.32,5.67];伦理:t(3210 ) = 2.81,p = 0.005,b = 2.87, 95% CI = [0.87, 4.87])。参与者对人机交互和法学硕士条件之间政策的评估没有显着差异(聪明:t(1570) = 1.32,p = 0.188,b = 1.01,95% CI = [−0.50,2.52],BF01 = 16.66;富有同情心:t(1570) = −1.04,p = 0.299,b = −1.13,95% CI = [−3.27 , 1.01],BF01 = 23.10;伦理:t(1571) = − 0.18,p = 0.859,b = −0.18,95% CI = [−2.15, 1.79],BF01 = 39.07),也不介于人类在循环和人类条件之间(聪明:t(2395) = 1.43,p = 0.154,b = 1.12,95% CI = [−0.42,2.65],BF01 = 15.56;富有同情心:t(2395) = −0.95,p = 0.343,b = −1.06,95% CI = [−3.25, 1.13],BF01 = 25.29;伦理:t(2396) = −0.27,p = 0.791,b = −0.27,95% CI = [− 2.29, 1.75],BF01 = 38.20)。 |
| [返回] |