欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033
微信:paperwinner
工作时间:9:00-24:00
机械论文
当前位置:首页 > 机械论文
使用GenAI减少气候怀疑论的前景和局限性
来源:一起赢论文网     日期:2025-09-19     浏览数:420     【 字体:

 使用 GenAI减少气候怀疑论的前景和局限性

 
 
 
由于普通民众中气候怀疑论的顽固存在,我们减缓气候变化的能力 1,2,3.“趋势怀疑论”是指对气温是否正在升高的怀疑,这种怀疑主义在 2000 年代初所谓的“暂停”期间达到顶峰4.“归因怀疑论”承认气候变化正在发生,但质疑人类是否对气候变化负有主要责任,这一观念在依赖化石燃料的国家尤为普遍 5,6.“影响怀疑论”涉及淡化气候变化的负面影响——到 2023 年,只有 54% 的美国成年人(和 23% 的共和党人)同意气候变化对美国构成重大威胁7.最后,“反应怀疑论”涉及对现有最佳科学证据推荐的缓解解决方案的有效性提出异议(例如,否认风能的碳有效性)8.这些形式的气候怀疑主义是脱碳努力的主要障碍:当面临深度阻力时,政府会避免可能不受欢迎的气候政策,而政治机会主义者则从拖延的话语中受益9.
 
对气候怀疑论的一个直观上吸引人的反应是使用信息干预来向人们传授气候科学知识。然而,早期通过信息减少气候怀疑论的尝试要么对传统上对气候持怀疑态度的受众没有影响,要么适得其反,导致对气候不太友好的观点 10,11.此外,美国的调查研究发现,在那些对气候最怀疑的人口(即保守派)中,教育水平通常与更高的气候怀疑论有关 12,13.尽管教育的这些反常反作用的证据可能正在消失14,悲观的结论导致转向其他传播气候变化的方式,例如不直接传达气候科学证据的基于价值观的框架15以及旨在教人们如何在错误信息流行之前发现错误信息的预揭穿努力16.
 
信息干预对气候怀疑论者影响不大的一个可能原因是,他们的观点与政府在监管市场和个人自由方面的作用的根深蒂固的意识形态差异相一致15,17,18.有时,这些意识形态差异与政党之间的政策差异相对应,因此对气候科学的看法变得党派化。在这些“炎热”的群体间环境中,关于气候变化的证据——以及什么是被认为是可靠证据来源的概念——变得有争议19,20,21.另一个经常被引用的原因是阴谋论世界观的兴起,以至于人们认为有权势的行为者对公众进行精心策划的恶作剧并在近乎完美的秘密中进行是司空见惯的。这种世界观强化了社区对政府、科学家和工业界等“精英”行为者作为信息来源的诚信的怀疑22.
 
在这种有些悲观的背景下,聊天生成预训练转换器 (ChatGPT) 等大型语言模型 (LLM) 提供了一种潜在的令人兴奋的方式来向人们传授气候变化知识。尽管这些工具最近才向公众开放,但有潜力成为世界上最受欢迎和最有影响力的信息来源。最初的研究侧重于对法学硕士对实验者发起的查询的响应进行内容分析。法学硕士可以通过提供易于理解的灾害解释来支持气候素养,尽管准确性因主题和模型而异23.将法学硕士与政府间气候变化专门委员会 (IPCC) 等权威来源相结合可以提高可靠性,混合工具就证明了这一点24.然而,人们仍然担心法学硕士的产出可能会重现社会偏见并过度简化气候挑战的系统性原因 25,26.
 
尽管缺乏研究法学硕士对话对气候相关观点的影响,但一项开创性的研究表明,与法学硕士的对话会降低多达 20% 的阴谋论同意度(参考文献。27),这种效果远远超过了典型的阴谋论干预28.与法学硕士的对话也有效地减少了有关电动汽车的错误信息29.尽管变化的机制尚不清楚,但信息是“无作者”的(例如,不是由国家机构编写的)这一事实可能会降低对信息来源的反应,从而打开不信任者对其内容的思想。法学硕士的另一个强大优势是,它们的信息是根据每个人的关注点量身定制的,提供了静态的官方声明无法实现的微观定位水平。
 
目前的研究
本研究的主要目标是检查与法学硕士(在我们的例子中为 ChatGPT)的对话是否可以有效减少气候怀疑论并增加对减缓气候变化的支持。此外,我们还检查了 ChatGPT 在与人们谈论气候变化时是否会产生错误信息。在研究 1 中,949 名参与者(代表年龄、性别和政治派别)完成了第 1 阶段,该阶段包含三项措施:气候怀疑论、对气候减缓政策的支持和亲环境行动意图。在第二阶段,参与者被要求在两个开放式文本框中输入他们对气候变化的看法(请参阅提示方法)。参与者被要求对他们相信自己陈述的信心进行评分,这构成了设计中的第四个前置措施。在研究的第三阶段,参与者被随机分配到两种信息干预之一。一半的参与者与人工智能 (AI) 技术 ChatGPT4-o Turbo 进行了三轮对话,这是一种被越来越多的公众使用的商用法学硕士。图中提供了一个参与者在对话中的经历的例子——选择说明性而不是代表性——如图所示。1.
 
图 1:参与者与 ChatGPT 之间的对话示例。
图1
参与者首先提供了他们的初步观点,并由 ChatGPT 进行了总结。参与者对他们认为 ChatGPT 生成的摘要代表真相的信心进行了评分。其次,参与者与 ChatGPT 就气候变化进行了互动。第三,他们再次看到 ChatGPT 生成的第一次回复摘要,并重新评估他们认为该摘要代表真相的信心。
 
全尺寸图像
作为比较这种干预有效性的基准,另一半样本阅读了 IPCC 的官方新闻稿;一份报告的长度与 ChatGPT 参与度大致相同(平均长度分别为 1,026 和 1,032 字),代表了气候科学界为社区和媒体浓缩科学所做的最大努力 (www.ipcc.ch/site/assets/uploads/2023/03/IPCC_AR6_SYR_PressRelease_en.pdf)。最后,在接受信息干预后,参与者重复了干预前测量的相同四个量表(以 0-100 量表测量;补充表1)。
 
在研究 2 (n = 333) 中,我们重复了相同的设计,但进行了以下调整:(1) 我们只关注气候怀疑论者,(2) 我们纵参与者是否与 ChatGPT 进行了三轮或六轮对话,以及 (3) 我们在初始干预后 2 周进行了后续调查,以评估干预有效性的衰减。
 
对信徒的积极影响,对怀疑论者的影响好坏参半
在研究 1 中,在分析之前,参与者最初的开放式评论由两个独立的评估者编码,形成两组:在最初陈述中表现出怀疑迹象的参与者 (n = 207) 和没有表现出怀疑迹象的参与者 (n = 742)。使用两种(怀疑者与非怀疑者)×两种(人工智能与 IPCC)×两种(测量前与测量后)混合方差分析来分析结果。效果如图所示。2;统计数据汇总在扩展数据表1和2以及补充表2和3中。
 
图 2:两种信息干预对怀疑论者 (n = 207) 和信徒 (非怀疑论者;n = 742)。
图2
a,对初始陈述置信度的影响。b,对气候怀疑论的影响。c,对气候政策支持的影响。d,对环保行动的影响。数据以平均值±标准差表示。
 
全尺寸图像
总体而言,干预具有适度的积极效果——降低怀疑论并增加政策支持(均P < 0.001)——但这些影响仅出现在非怀疑参与者中。具体而言,非怀疑论者参与者本已很低的怀疑水平下降了 3.2 个百分点 (pp),他们本已很高的政策支持水平增加了 3.1 个百分点,而怀疑论者对每项指标的看法没有显着变化(<0.6 个百分点)。无论参与者是否接触人工智能或 IPCC 干预,这些变化在统计学上都是等效的。
 
对参与者对其原始陈述真实性的信心的分析显示,存在三向交互作用(P = 0.042)。这反映了干预前后的变化,但仅限于人工智能条件,怀疑论者的信心下降了 2.9 个百分点 (P = 0.029),信徒的信心增加了 2.7 个百分点 (P < 0.001)。最后,从干预前到干预后,亲环境意图增加了 3.5 个百分点 (P < 0.001),这一增长在统计学上对怀疑论者和非怀疑论者来说是相当的,对于 IPCC 和 AI 干预措施同样强劲。
 
鉴于法学硕士训练的开源性质,一个可能的担忧是人工智能会在他们的互动中重现错误信息。验证 ChatGPT4 Turbo 响应的准确性并符合建议30,我们最初使用 Anthropic 的 Claude 3.5 Sonnet 模型进行了系统的事实核查。每个响应都通过应用程序编程接口 (API) 进行评估,并带有一个提示:“请根据已知事实和逻辑一致性分析此响应是否可能是正确的。只用'可能是正确的'或'可能是错误的'来回应“。分析显示,98.11% 的回复被归类为“可能真实”。在研究团队进行人工检查后,其余标记为“可能是错误”的响应被确定为 API 错误的伪影,而不是内容中的实际不准确之处。我们承认,仅依靠另一个 LLM 进行事实核查是次优的,因为它们共享相似的开源训练数据。因此,我们还聘请了两位独立的气候科学专家(他们都向研究生和高管班教授气候素养和可持续发展问题)来手动审查研究 1 中 ChatGPT 的大量输出子集。具体来说,我们对对持怀疑态度的参与者显示的所有回答以及来自非怀疑态度的群体的匹配数字进行了事实核查。这些审稿人在抽样回答中几乎没有发现错误信息或事实不准确的证据。为了提高透明度,补充表 4 总结了被事实核查人员标记为潜在错误信息的 ChatGPT 陈述。
 
对怀疑论的影响不大但不持久
效果相对温和的一个可能原因是,三轮对话可能无法完全反映用户在现实环境中与法学硕士互动的更具互动性的方式,因此没有充分利用法学硕士的教学潜力。为了解决这个问题,在研究 2 中,我们进行了第二项研究,其中我们只关注气候怀疑论者,并纵他们是与 ChatGPT 进行三轮还是六轮对话。研究 2 还包括一项后续调查(在初始干预后 2 周进行),以评估反应的任何变化是否随着时间的推移而衰减 (n = 333)。效果如图所示。3;统计数据汇总在扩展数据表 3-5 和补充表 5 和 6 中。
 
图3:与ChatGPT进行三轮和六轮对话对气候怀疑论者观点的影响。
图3
a,对初始陈述置信度的影响。b,对气候怀疑论的影响。c,对气候政策支持的影响。d,对环保行动的影响。数据以平均值±标准差表示。
 
全尺寸图像
在研究2中,时间对所有4项相关指标均有显著但较小的影响:干预后,怀疑论者对其初始态度的信心立即下降(5.0 pp),气候怀疑论量表得分下降(2.7 pp),支持环境行动意愿(4.9 pp)和减缓政策支持(1.8 pp;均P< 0.001)。这些改善在 2 周的随访中仍然具有弹性,但有一个例外:气候怀疑论评分显着反弹(T2 与 T3 P = 0.026),抹去了干预后立即取得的所有收益(T1 与 T3 P = 0.133)。
 
讨论
ChatGPT 等 GenAI 工具有可能彻底改变科学信息的交流方式。除了在与信任敏感的受众进行沟通方面的优势之外,它们还有其他优势使它们成为人群层面干预的候选者:它们易于访问,根据个人关注点提供反馈,并且会说多种语言。在两项研究中,我们发现在与 ChatGPT 对话后,怀疑论者对气候相关观点的改善适度但可靠。然而,需要承认的是,对气候怀疑论本身的影响很小,不一致,并且容易随着时间的推移而衰减,这加剧了信息干预对气候怀疑论影响平淡无奇的历史 10,31.
 
研究 2 的动机之一是测试在研究 1 中观察到的相对温和的效果是否反映了三轮形式的局限性,这可以说低估了法学硕士的互动潜力。然而,将对话长度增加到六轮并没有产生额外的好处。这表明,任何态度或意图的大部分转变都可能发生在互动的早期,要么是因为关键问题得到了迅速解决,要么是因为对话达到了平台期或僵局。这种模式与基于法学硕士的信息干预的收益递减的想法一致:也就是说,短暂的互动可能会带来一些好处,但简单地延长对话可能无法继续加深参与或改善结果。重要的是,这符合研究自然主义行为的目的;在日常环境中,很少有用户可能会与 LLM 进行长时间的来回交流。因此,即使在短暂的交流之后也观察到适度但显着的效果凸显了简短的法学硕士干预的前景,以及仅期望长度增强影响的局限性。
 
还值得注意的是,基于人工智能的干预对气候怀疑论和政策支持的影响在研究 2 中具有统计学意义,但在研究 1 中则不显着。这种差异是微妙的——研究 2 中的影响很小,并且怀疑的减少在随访中没有持续存在——但尽管如此,它还是引发了关于可复制性的问题。尽管这两项研究使用了相同的基础程序,但需要考虑研究之间的一些背景差异。首先,虽然研究 2 包括对对话长度的纵(三轮与六轮),但这对结果没有明显影响,也不太可能解释这种差异。其次,研究 2 使用“气候怀疑论者”预筛选问题 Prolific 针对参与者,这可能产生了一个意识形态更根深蒂固的样本(研究 2 中的怀疑论者在怀疑论量表上的得分比研究 1 中的怀疑论者高出约 10 分)。矛盾的是,如果干预能够挑战更极端的信念,这可能会创造更多的运动空间。第三,时间可能发挥了作用:研究 1 是在美国总统大选前进行的,当时与身份相关的态度可能更加两极分化和认知僵化。相比之下,研究 2 是在选举后进行的,这可能允许在重新评估有争议的问题方面具有更大的灵活性。这些背景因素凸显了基于人工智能的干预措施对样本组成和政治气候的细微变化的敏感性,这对于寻求在现实环境中应用法学硕士的研究人员和从业者来说是一个重要的考虑因素。
 
最后,我们注意到我们研究的影响小于引用的阴谋论干预所达到的效果。27.造成这种情况的一个可能原因是,与 ref.27,我们没有给AI提供后端提示,以使其具有说服力。另一个可能的原因——这也可能有助于解释为什么研究 1 发现非怀疑论者比怀疑论者更多的运动——是怀疑论者的观点与部落政治忠诚交织在一起,这意味着它们的作用与其说是通过证据形成的信念,不如说是意识形态认同的表达32.
 
LLM 对话的适度影响需要在更广泛的背景下解释,即这些工具可以实现什么和不能实现什么。从好的方面来说,ChatGPT 等法学硕士提供了高度可扩展、可访问且经济高效的方式来向公众提供量身定制的信息。他们可以模拟交互式对话,实时回应个人问题,并避免来自政治化或机构来源的沟通带来的一些反应。这使得它们成为接触难以吸引的受众的潜在宝贵工具。然而,也有有据可查的局限性。其中包括算法的不透明33,缺乏强有力的治理或监督34,随着时间的推移,可能出现偏见或事实不准确 35,36,恶意行为者滥用的可能性37以及与人工智能模型的能源和水需求相关的环境成本38.随着 GenAI 系统在为个人用户定制内容方面变得越来越复杂,它们也可能通过主要呈现与这些观点一致的信息来无意中强化现有信念39.
 
总之,我们的研究结果凸显了法学硕士在气候传播中的潜力和界限:它们可以适度改度,尤其是当信息以自然和个性化的形式传递时,但它们并不是灵丹妙药。因此,它们在气候传播中的使用应该受到严格审查,并与更传统的科学传播和参与形式进行深思熟虑的结合。
 
方法
研究 1 参与者
我们最初通过 Prolific 收集了 1,047 名美国参与者的数据,使用预筛选选项获得了跨年龄、性别和政治意识形态的代表性样本。参与者的时间相当于每小时 7.49 英镑的补偿(预注册 https://osf.io/v7d9c/)。最初的招募人数略高于预注册的 1,000 名参与者,因为一些参与者被系统超时,因此不计入我们要求的 1,000 名配额(无论如何,所有参与者都获得了时间补偿)。根据预先注册,对气候变化没有表达任何观点或未通过注意力检查的参与者被从分析中删除。这使得 949 名可用参与者(男性,49.7%;女性,49.2%;非二元/其他,1.1%),平均年龄为 45.3 岁(标准差 = 15.6 岁)。我们使用七分制的两项衡量标准来衡量经济和社会政治意识形态(1,左派/自由派;7,右派/保守派;r = 0.86)。平均分数接近中点 (M = 3.82)。样本偏向于受过良好教育:56.0% 的参与者表示至少拥有学士学位。
 
[返回]
上一篇:对抗性提示和微调攻击威胁医疗大语言模型
下一篇:量化大型语言模型在科学论文中的使用