欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033
微信:paperwinner
工作时间:9:00-24:00
博士论文
当前位置:首页 > 博士论文
What large language models know and what people think they know
来源:一起赢论文网     日期:2025-08-09     浏览数:551     【 字体:

 

 
不确定性沟通在决策和政策制定中起着至关重要的作用。不确定性通常以口头方式表达,以帮助利益相关者了解风险并在气候政策、法律、医学和情报预测等广泛领域做出明智的选择。心理学研究调查了这些领域中对口头表达的不确定性的看法(例如,“非常不可能”或“几乎确定”等短语)1,2,3,4,5.尽管口头概率短语在传达概率方面缺乏精确性,但它们提供了一种简单有效的方法来传达自然语言环境中的不确定性。大型语言模型 (LLM) 的出现为不确定性通信领域带来了新的复杂性。这些模式越来越多地融入公共卫生等领域6编码7和教育8.然而,法学硕士如何有效地传达不确定性的问题尚未探索。由于与法学硕士交流的主要方式是通过自然语言,因此了解法学硕士是否能够通过口头手段准确地传达他们知道或不知道的事情至关重要。
 
最近的研究对法学硕士生成的信息的可靠性提出了怀疑。一个值得注意的问题是,可能会产生虽然令人信服但可能不准确或荒谬的回复9,10 .LLM 的不可靠性导致 LLM 开发人员警告不要不加批判地接受模型输出11,这表明模型何时对传达给用户的知识有信心或没有信心并不总是很清楚。
 
同时,最近的研究也表明,LLM在一定程度上具有准确辨别自身知识边界的能力。特别是法学硕士可以对多项选择题表现出合理水平的校准,以便模型分配给所选答案的概率与该答案正确的概率相跟踪12,13,14.此外,最近的研究表明,法学硕士可以区分可回答和无法回答的问题 13,15而LLM的内部状态可以区分真实的陈述和谎言16以及真实的陈述和虚构17.这些发现表明,法学硕士可能拥有一种反映自我认识的内部机制。
 
在问答的特定背景下,LLM 的模型置信度通常等同于法学硕士分配给所选答案相对于其他可能答案(例如,refs. 18,19).然而,从人类与 LLM 交互的角度来看,这种内部模型置信度通常不会作为 LLM 输出的一部分显示给人类用户。相反,在当前的实践中,人类仅依靠法学硕士产生的语言来评估法学硕士的信心。为了与模型置信度形成对比,在本文中,我们使用术语“人类置信度”来指代人类评估(以概率表示)仅基于 LLM 生成的语言,而不了解 LLM 的内部模型置信度,从而评估 LLM 的答案正确的可能性有多大。
 
令人惊讶的是,缺乏专注于调查人类对法学硕士输出的信心的研究。在本文中,我们采取了解决这个问题的一步,并研究了我们所说的校准差距,即 LLM 模型置信度和人类置信度的可靠性差异。实际上,校准差距代表了法学硕士自己对其所知道的内部信心与人类对这种信心的看法之间的差距。此外,我们还调查了辨别差距,这与区分可能正确和错误答案的能力差异有关。任何歧视差距都表明,无论使用什么内部 LLM 表示来区分可能正确和错误的答案,都无法有效地传达给人类。在这种情况下,我们解决了两个具体的研究问题。首先,校准和判别差距有多大?也就是说,就如何评估 LLM 的真实准确性而言,LLM 模型的置信度和人类置信度之间是否存在显着差距?二、能否缩小校准和判别差距?是否可以通过使 LLM 的文本输出适应内部模型置信度来提高人类对 LLM 的置信度?这些问题对可靠的 LLM 助手的设计具有重要意义。通过将法学硕士的内部信心与人类对这种信心的看法结合起来,我们可以弥合法学硕士所知道的知识与人们认为自己知道的知识之间的差距,这对于开发有效且值得信赖的助手至关重要
 
我们在这方面的贡献是双重的。首先,我们提出了一组实验研究和一个数据集,这些研究直接捕获了人类在问答环境中对法学硕士信心的评估,从而深入了解人类对法学硕士文本响应的看法。其次,我们测试并提出生成 LLM 响应的方法,这些方法可以提高人类置信度相对于 LLM 助手的模型置信度和 LLM 的真实准确性的校准质量。
 
法学硕士
我们在研究中使用了三个公开可用的法学硕士:GPT-3.5(参考文献。20)、PaLM2(参考文献。21)和GPT-4o。我们将 GPT-3.5 和 PaLM2 模型应用于大规模多任务语言理解 (MMLU) 数据集中的多项选择题子集,这是一个综合数据集,包含来自科学、技术、工程和数学 (STEM)、人文、社会科学等各个知识领域的多项选择题19.我们将 GPT-4o 模型应用于 Trivia QA 数据集中的简答题子集22.对于每个多项选择题和简答题,我们通过计算标记似然来评估模型置信度(有关详细信息,请参阅方法)。这种读出模型置信度的方法允许直接计算多项选择题中不同可能答案的相对概率12、13、18、19、23以及开放式问题答案正确的概率 13,17.我们研究了模型置信度和准确性之间的关系,以确定 LLM 是否经过合理良好的校准,与 LLM 从使用 LLM 的人类那里引出经过良好校准的置信度的能力无关。
 
行为实验
我们设计了行为实验来评估人类对法学硕士信心的看法。在这些实验中,参与者根据法学硕士提供的解释来估计法学硕士对多项选择题或简答题的回答正确的概率(图 11). 参与者没有直接访问 LLM 的数值模型置信度,这使我们能够仅根据模型解释来推断参与者对 LLM 置信度的看法。此外,仅对于实验的多项选择题部分,在法学硕士的协助下,参与者提供了问题的答案。先前的研究表明,MMLU 多项选择题对于缺乏领域专业知识的参与者来说很困难,导致准确性接近偶然19.我们预计,如果没有法学硕士的帮助,这些问题将很难回答,因为我们实验中的大多数参与者缺乏领域专业知识,他们对解释内容的看法将比他们自己的知识更能影响他们的评估。
 
图1:评估模型置信度与人类置信度之间校准差距的评估方法概述。
figure 1
多项选择题,其工作原理如下:(1)用一个问题提示LLM,以获得模型对每个答案选择的内部置信度;(2)选择最可能的答案,并再次提示模型对给定的答案生成解释;(3)通过向用户展示问题和LLM的解释,并要求用户指出模型正确的概率,从而获得人类的置信度。在此玩具示例中,多项选择题的模型置信度为答案 C 的 0.46,而人类置信度为 0.95。对于简答题,方法类似,不同之处在于内部模型置信度是通过一个额外的步骤获得的,其中提示 LLM 评估先前提供的问题答案是对还是错13.在简答题示例中,LLM模型解释被不确定性语言修改,以传达低模型置信度(0.18)。对于两个玩具示例,正确答案是“A”和“蓝鸟”。
 
全尺寸图像
我们进行了两个实验,每个实验涉及三种类型的 LLM 和两种类型的问题(概述见表 1)。实验 1 使用 LLM 对多项选择题或简答题的默认解释来评估人类对 LLM 准确性的看法。该实验的结果使我们能够解决第一个研究问题,即模型与人类置信度之间的校准和辨别差距的大小。实验 2纵提示产生三个级别的不确定性语言(低、中和高置信度)和三个级别的解释长度,从而向参与者呈现九种不同类型的解释。提示旨在在解释开始时包括与模型置信度相对应的不确定性语言。表 2 说明了实验中使用的特定多项选择题的解释(有关完整的模型解释,请参阅补充表 2)。该实验的结果有两个目的。首先,我们确定人类的信心随不确定性语言和解释的长度而变化。接下来,我们使用实验 2 的结果来回答第二个研究问题,即了解如何通过将不确定性语言与模型置信度对齐来减少校准和判别差距——当模型分别具有低、中和高置信度时,显示低、中和高置信度的解释。补充信息(“实验 3”)报告了使用不同提示方法的附加实验的结果,该方法更改了实验 1 的默认解释。我们使用这两个指标来评估人类和模型置信度与模型准确性之间的关系。有关详细信息,请参阅方法。
 
表1 实验概况
全尺寸桌子
表2 GPT-3.5对实验1a和2a中使用的多项选择题的回答示例解释
全尺寸桌子
结果
我们首先检查实验 1 的结果,并比较 LLM 为参与者生成默认解释的情况下的人类和模型置信度。我们给出了两个不同指标的结果:(1)预期校准误差(ECE),评估模型或人类的置信度分数反映LLM真实准确性的程度,以及(2)曲线下面积(AUC),评估置信度分数区分正确和错误响应的程度(参见方法了解详情)。研究结果表明,通过校准和区分来衡量,法学硕士所知道的与人类根据默认解释认为他们知道的之间存在显着差距。
 
校准间隙
图 2(左)显示了模型和人类置信度的 ECE。结果显示校准间隙;在不同类型的 LLM 和问题类型(多项选择题和简答题)中,模型置信度(灰色)的 ECE 指标远低于基线解释的人类置信度(绿色)。这种差距表明,法学硕士提供的标准解释无法使参与者判断法学硕士答案正确的可能性,导致感知准确性与实际法学硕士准确性之间不一致。
 
图 2:行为实验和 LLM 中模型置信度和人类置信度的校准误差和判别。
figure 2
校准误差由 ECE 评估(越低越好),而辨别力通过 AUC 评估(越高越好)。垂直虚线表示未修改解释的模型置信度和人类置信度之间的校准和判别差距(实验1a、1b和1c)。对于人类置信度,数据点表示为每个参与者单独计算的 AUC 值(n 如图所示),误差线表示参与者平均值的 95% 置信区间。由于数据稀疏性,ECE 值是在组级别计算的。
 
源数据
 
全尺寸图像
图 3 扩展了图中的校准结果。2 显示每个 LLM 和每个实验条件的详细校准结果。这些图显示了模型置信度(左列)和人类置信度(右两列)的校准情况。理想的校准(即 ECE 为 0)将产生沿对角线的结果。对于多项选择题,两个法学硕士都倾向于过度自信,导致校准线低于对角线。对于简答题,法学硕士有些不自信。将实验1(中列)中的LLM与人工校准进行比较,结果表明,对于多项选择题,人类校准错误主要是由于过度自信,表明人们普遍认为LLM比实际更准确。直方图(插图面板)表明,很大一部分校准误差是由于参与者产生高置信度分数的倾向造成的,即使相关问题的模型准确性远低于基于置信度的预期。
 
图 3:实验 1 和 2 中模型置信度和人类置信度的校准图。
figure 3
顶部和中间行分别显示了 GPT-3.5 和 PaLM2 模型的多项选择题的结果。底行显示了 GPT-4o 模型的简答题的结果。每个图底部的直方图显示每个置信区间中观测值的比例(值缩放 30% 以提高视觉清晰度)。阴影区域表示跨参与者和问题计算的平均值的 95% 置信区间。
 
源数据
 
全尺寸图像
歧视差距
相对于法学硕士,参与者不太擅长根据默认解释区分哪些答案可能是正确或不正确的。我们使用应用于人类置信度评级的 AUC 指标来评估歧视。图 2(右)显示了模型和人类置信度的 AUC。结果显示,模型和人类置信度区分正确和错误答案的能力之间存在差距。LLM 模型置信度区分正确和错误答案的比例远高于几率(多项选择题的 GPT-3.5 AUC 0.751 和 PaLM2 AUC 0.746,简答题的 GPT-4o AUC 0.781)。相比之下,在实验 1 中查看默认解释的参与者仅略好于随机猜测(GPT-3.5 和 PaLM2 的多项选择解释的 AUC 分别为 0.589 和 AUC 0.602,GPT-4o 的简答解释的 AUC 为 0.592)。因此,默认解释也会导致歧视差距。
 
解释风格和长度影响人类的信心
实验 2 评估了 LLM 解释中表达的不确定性程度(跨三个置信度)以及 LLM 解释的总长度(跨三个长度级别)如何影响人类置信度。
 
图 4 显示,无论产生解释的 LLM 类型或问题类型如何,解释中使用的不确定性语言类型都对人类信心有很大影响。低置信度解释(“我不确定”)产生的人类置信度明显低于中置信度解释(“我有点确定”);贝叶斯因子 (BF) >100,实验 2a、2b 和 2c。同样,中置信度解释产生的人类置信度低于高置信度解释;实验 2a、2b 和 2c 的 BF >100。补充信息(“人类置信度协议”)显示了对参与者置信度评级可靠性的分析。
 
图 4:在不确定性语言和长度方面不同的 LLM 解释风格的平均人类置信度。
figure 4
数据以实验 2a (n = 60)、2b (n = 60) 和 2c (n = 59) 中参与者置信度的平均值表示。作为参考,虚线显示了实验 1a、1b 和 1c 中基线解释的平均人类置信度。误差线表示参与者平均值的 95% 置信区间。
 
源数据
 
全尺寸图像
此外,解释的长度也影响了人类对法学硕士答案的信心。长解释导致的置信度明显高于简短解释(BF 为 25,实验 2a、2b 和 2c 的数据组合),简短解释导致的置信度显着高于仅包含不确定性表达的响应(BF >100,实验 2a、2b 和 2c 的数据组合)。较长解释中提供的附加信息无法使参与者更好地区分较长解释的可能正确答案和错误答案。在实验 2a、2b 和 2c 中,对于长期和仅不确定性解释,平均参与者 AUC 分别为 0.54 和 0.57(BF 为 0.23)。因此,答案的长度导致了人类信心的增加,而区分正确和错误答案的敏感性却没有任何相应的变化。
 
结果证实,人们可以适当地解释有关不确定性的口头暗示,并且纵解释的长度可以直接影响人类的信心。
 
减少校准和鉴别差距
在实验 2 中确定了 LLM 解释中的不确定性语言可以改变人类置信度后,我们现在评估将不确定性语言的类型与 LLM 模型置信度联系起来(即,当模型置信度分别为低、中和高时显示低、中和高置信度解释)是否可以减少校准和辨别差距。
 
根据模型置信度选择解释
我们模拟了通过简单的决策规则将解释风格与模型置信度对齐的效果。根据这条规则,我们根据 LLM 模型置信度分数 p 选择解释类型 s ∈ {低置信度、中置信度、高置信度}
 
$$s={\left\{\begin{array}{ll}{\rm{low}}\,{\rm{confidence}}\quad &\,\text{if}\,\,p\le {\theta }_{1}\\ {\rm{medium}}\,{\rm{confidence}}\quad &\,\text{if}\,\,{\theta }_{1} < p\le {\theta }_{2}\\ {\rm{high}}\,{\rm{confidence}}\quad &\,\text{if}\,\,{\theta }_{2} < p\end{array}\right.}。$$ (1)
参数θ1和θ2确定选择低、中和高置信度解释的范围。如果用于特定问题的解释风格与所选风格不匹配,则将此规则应用于给定参数设置会导致参与者的估计值被过滤掉。这使我们能够模拟参与者根据模型置信度接受不同类型解释的效果(即,低模型置信度的低置信度解释和高模型置信度的高置信度解释)。补充信息(“优化程序”)提供了有关优化程序的详细信息,并演示了结果对参数设置不是特别敏感。
 
校准和鉴别结果
图2显示了将选择规则应用于实验2结果时的校准和鉴别结果。图中的结果。2(左,红色条)显示校准差距已大大缩小。虽然相对于模型置信度,人类置信度的校准误差通常仍然较高,但相对于实验 1 中的基线解释,所有三个 LLM 的校准差距都已缩小。此外,图。2(右)表明,相对于跨 LLM 和问题类型的基线解释(实验 2a、2b 和 2c 分别为 BF >100、BF 6.48 和 BF >100),辨别差距(通过 AUC 测量)也已缩小。因此,结果表明,根据LLM模型置信度选择解释类型可以提高校准和辨别性能,因为人类对LLM的置信度与LLM的实际准确性更加接近。
 
参与者缺乏专业知识
对于多项选择题(1a、1b、2a 和 2b)的实验,参与者在看到 LLM 的答案后提供了自己的答案。这使我们能够分析参与者是否拥有任何来自法学硕士的独立知识,从而使他们能够提高法学硕士的准确性。在GPT-3.5的实验1a和2a中,参与者的平均回答准确率为51%,与LLM的52%准确率非常接近。同样,对于使用 PaLM2 的多项选择实验 1b 和 2b,参与者的平均准确率为 45%,与 LLM 的 47% 准确率相似。在所有多项选择实验的大多数 (82%) 回答中,参与者选择了与法学硕士解释一致的回答。
 
当参与者选择更改答案时,平均准确率为 33%,低于法学硕士对这些特定问题的 39% 准确率。这些发现表明,参与者独立于法学硕士的解释准确回答问题的能力有限。这与参考文献的调查结果一致。19,表明没有专业知识的土耳其机械工人(类似于我们的参与者库)在类似问题上的准确率为 35%。
 
当我们应用选择规则并且解释类型与模型置信度保持一致时,实验 2a 和 2b 中所选问题的人类决策准确性并没有提高(即使辨别和校准有所提高)。这表明,法学硕士准确的不确定流使参与者能够识别法学硕士何时提供可能正确或错误的答案,但缺乏独立于法学硕士的准确人类知识,使参与者无法改进法学硕士的答案。
 
在实验结束时,参与者估计了他们在 MMLU 问题样本中十个主题中的每一个的类似问题上将取得的表现。这些自我评估的专业知识估计的中位数在不同主题之间没有太大差异:从 30%(例如高中物理)到 45%(例如高中世界历史)。为了检查感知专业知识对准确性估计的影响,我们将参与者分为两组,根据他们在十个主题中的每一个主题中的自评专业知识是高于还是低于 50%。对于GPT-3.5的实验,专业知识较高的组通常具有更好的辨别力(AUC 0.600 vs AUC 0.579),但没有证据表明这种差异是显着的(BF <1)。此外,两组之间的校准误差相当(ECE 0.289 vs 0.292)。同样,在 PaLM2 实验中也没有发现专业知识的影响。因此,那些认为自己对某个主题更了解的参与者并不更善于估计法学硕士在该领域的表现。
 
讨论
我们的研究重点是弥合法学硕士所知道的知识与用户认为它所知道的知识之间的差距。这种差距至关重要,特别是随着对法学硕士进行各个领域决策的依赖正在迅速增加。
 
对法学硕士的研究已经开始应对这些挑战,重点是改善不确定性沟通和解释质量。几项研究探讨了法学硕士在回答多项选择题方面的信心,重点关注模型自我报告的信心与其实际准确性的一致性12、13、19、24以及用户是否能够准确评估所提供解释的可靠性25.参考文献的作品。26调查用户在模拟琐事任务中如何响应不确定性的口头短语,但不使用实际的 LLM 输出。总体而言,很少有研究检查用户对 LLM 输出的信心。我们的工作使用实际的 LLM 输出及其置信度来量化校准和鉴别差距。因此,我们直接解决了法学硕士与人类之间不确定性沟通不畅的问题。
 
我们的结果表明,用户一直高估了 LLM 输出的准确性,尤其是当他们依赖模型的默认解释时。对于三种不同的法学硕士和两种不同类型的问题(多项选择题和简答题)来说都是如此。这种对法学硕士能力过度自信的倾向是一个重要问题,特别是在关键决策依赖于法学硕士生成的信息的情况下。用户无法辨别 LLM 响应的可靠性不仅破坏了这些模型的实用性,而且在用户对模型准确性的理解至关重要的情况下也会带来风险。
 
此外,结果还显示出长度偏差,即较长的解释会导致更高的人类置信度,即使它们不包含任何额外的信息来帮助用户更好地区分可能正确和错误的答案。这表明用户在浅层处理解释,依靠简单的文本线索(例如总长度)来预测 LLM 的准确性。这一结果与社会心理学和沟通研究的研究表明,较长的答案或解释可能被认为更具说服力或可信度,即使它们不包含更有意义的信息 27,28.这种长度偏差也出现在同行评审等领域,即使信息内容保持不变,较长的评论也被认为更具说服力和信息量29.
 
尽管默认的 LLM 解释无法让用户感知模型真正知道的内容,但这项研究表明,基于定制解释的简单方法可以弥合这种感知差距。这是通过改变用于根据模型置信度生成解释的提示来实现的,从而可以更好地控制响应中不确定性的表达方式。具体来说,我们设计了这些提示,以诱导不同程度的解释确定性,从低置信度的表达(例如,“我不确定答案是 [B],因为”)到高置信度(例如,“我确信答案是 [B],因为”)。通过修改 LLM 响应的语言以更好地反映模型置信度,用户在评估 LLM 可靠性时表现出改进的校准,并且能够更好地区分正确和错误答案。这一改进强调了法学硕士透明沟通的重要性,表明研究人员需要研究模型解释如何影响用户感知。
 
当前研究的一个局限性是专注于特定类型的问题,涉及少量的回答选择(多项选择)和开放式问题的简答。这些结果在多大程度上适用于较长的开放式问题仍然是一个悬而未决的问题。进一步的研究可以调查我们的研究结果在更广泛场景中的适用性。这项研究的另一个局限性是,我们根据内部不确定性修改提示的方法要求 LLM 被提示两次:一次是读出答案和模型置信度,另一次是生成由模型置信度修改的解释。未来的研究可以研究如何在一个步骤中产生置信度修改的解释。
 
未来研究的另一个重要领域是了解不确定性沟通不畅的根本原因。为什么 LLM 生成校准的模型置信度,同时也生成与这些置信度不一致的解释?一种假设是,当前的法学硕士使用人类反馈强化学习 (RLHF) 与人类偏好保持一致30,这会产生一些内置的偏差。在这些 RLHF 程序中,向人类参与者提供各种类型的解释,然后他们可以选择自己喜欢的解释。然后,法学硕士会根据人类偏好数据进行微调,使它们更有可能产生人们喜欢的解释。虽然 RLHF 鼓励与人为一致的输出,但它不可避免地会重现任何人类偏好偏差。例如,人们更喜欢详细且通常较长的解释 31,32.因此,根据这些人类偏好进行训练的法学硕士可能会产生过于令人信服的解释,从而可能误导用户了解信息的可靠性。
 
产生过度自信解释的另一种假设在于成熟的法学硕士的自回归性质。特别是,我们推测,在提交一个答案(编码为一系列标记)后,模型将生成一系列标记(解释),使前一个答案的可能性最大化,从而有效地产生断言的答案。参考文献中也提出了类似的假设。16.有趣的是,法学硕士选择特定答案可能会夸大该答案的基本原理,这类似于心理学中的选择支持偏见现象33.做出决定后,人们往往会高估所选选项的可取性,而低估被拒绝的替代方案的可取性。这可以让他们对自己的决定比第一次做出决定时更有信心。
 
我们的工作与之前关于机器学习分类器领域中人类对人工智能 (AI) 生成的解释的感知和评估的研究有一些相似之处(参见参考文献。34概述)。这些研究经常使用特征突出显示来解释图像的哪些区域35或者文件碎片36可以支持建议的分类。研究发现,这些类型的人工智能解释在人类决策中的有效性证据不一37,38,39,40.这些结果凸显了确保人工智能生成的解释符合人类期望并允许人类区分正确和错误答案的挑战。
 
总之,我们的研究强调了清晰准确的沟通在用户和法学硕士之间的交互中的关键作用。增强模型置信度与用户对模型置信度的看法之间的一致性可以导致法学硕士的更负责任和值得信赖的使用,特别是在人工智能生成信息的准确性至关重要的领域。
 
方法
问题数据集
多项选择题的 MMLU 数据集
MMLU 数据集是一个全面的多任务数据集,包含来自各个知识领域(例如 STEM、人文、社会科学等)的多项选择题19.总共有 14,042 个测试集问题,来自 57 个类别,由本科生和研究生从免费提供的在线资源(例如研究生入学考试和美国医学执照考试)中策划。这些问题的难度从高中到专业水平不等。MMLU 数据集广泛用于衡量文本模型的多任务准确性,因为它挑战模型在现实世界文本理解方面超越单纯的语言理解,从而使其成为模型评估的强大基准19,41,42.在这项研究中,我们从完整数据集中的十个选定类别中从一系列模型置信度中抽取了 350 个问题的子集,以全面评估人们对 LLM 模型置信度的评估。
 
用于简答题的琐事 QA 数据集
琐事 QA 是一个琐事问题的数据集,可以用简答题回答22.与参考文献的方法类似。17,上下文信息被排除在外,以使问题回答对法学硕士更具挑战性,并且更适合我们的行为实验。在这项研究中,我们评估了原始 650,000 个问题数据集中 5,000 个问题的模型置信度,然后从一系列模型置信度中选择了 336 个问题的最终样本。最后一组问题分为七个不同的主题(文化与社会、娱乐、地理、历史、政治、科学技术和体育)。
 
评估模型置信度并创建问题子集
已经开发了几种方法来引发对法学硕士的信心,并评估所引出的信心分数的校准程度(参见参考文献。43概述)。在这项研究中,我们使用一种常用的方法来访问基于标记似然的内部模型信息,允许直接计算多项选择题中不同可能答案的相对概率12、13、18、19、23.此外,token-likelihood 方法可以扩展到简答题,使token-likelihood反映模型对LLM答案正确的置信度13.
 
不需要访问内部模型表示的方法使用了旨在引发不确定性的口头表达的提示策略 24,44.置信度在自然语言中表示为数字字符串(例如,“80%”) 24,45或更定性的信心表达(例如,“我不确定答案是 X”)。提示可以设计为强调对各个步骤的正确性的分步推理,并澄清可能答案的空间,从而比简单地要求置信度评级的简单提示更好地校准24.对于简短的问答,提示策略可以导致校准的置信度46.然而,与读出模型置信度的方法相比,提示方法的准确性较低24.
 
多项选择题
对于多项选择题,我们遵循了基于读出 GPT-4 技术报告中描述的内部标记可能性的程序12.我们使用了零样本提示方法,其中模型仅使用目标问题及其相关的答案选项进行提示(扩展数据图。1). 我们首先评估了 GPT-3.5 和 PaLM2 语言模型对 14,042 道 MMLU 多项选择题的 LLM 模型置信度。这使我们能够选择置信度分布(在某种程度上)均匀分布的问题。我们使用 GPT3.5 (gpt-3.5-turbo-instruct) 和 PaLM2 (text-bison@002) 模型的 API 读出模型完成的前五个标记的对数概率。温度参数设置为 0。如果标记包含单个字母 A、B、C 和 D,则认为答案是完整的。然后将对数分数转换并归一化为四个答案选项的概率(因此分数的总和等于 1)。在这项研究中,内部不确定性(在本文中称为模型置信度)在所有实验中都由这些概率表示,这是法学硕士校准评估的常用技术12、13、18、19、23.
 
根据每个 LLM 对所有 MMLU 问题的模型置信度,我们为每个 LLM 单独创建了一个子集。总共为 10 个主题中的每个主题抽样了 35 个问题,总共 350 个问题。对于每个主题,对 35 个问题进行抽样,以使用置信度箱 0.2–0.4、0.4–0.6、0.6–0.8 和 0.8–1.0 大致创建模型置信度的均匀分布。然而,由于导致最低置信度箱中模型置信度的问题数量较少,因此在 0.2-0.4 置信度范围内抽样的问题较少。补充图。图 1 显示了整个 MMLU 数据集以及为我们的研究抽样的问题子集在模型置信水平上的分布。GPT-3.5 和 PaLM2 的 350 个问题的模型准确率分别为 55% 和 50%。
 
简答题
对于简答题,我们使用了基于 pTrue 方法的程序13以评估内部模型置信度。所有简答题实验均使用 GPT-4o 模型 (gpt-4o-mini) 的 API 进行,温度参数设置为 0.7(类似于 refs. 13,17).首先提示模型生成样本中 5,000 个琐事问题中的每一个的答案。为了确保模型响应仅限于简答,我们使用了十次提示方法,其中提示包含目标问题,前面是十个琐事问题的随机样本和参考答案。答案长度的中位数为两个单词。
 
评估简答题的模型置信度,如图所示。1(底部),我们用问题和建议的答案提示模型,并要求它确定建议的答案是对还是错(参见扩展数据图。1 以表示确切提示的示例)。然后将正确和错误答案选项的对数分数转换并归一化为两个答案选项的概率。我们实验中的模型置信度对应于真实答案选项的概率。
 
对于行为实验,我们创建了一个包含 336 个问题的子集,以确保在四个置信箱中均匀分布:0-0.25、0.25-0.50、0.50-0.75 和 0.75-1.0。补充图。1 和 2 显示了我们行为实验中使用的 5,000 个样本和 336 个子集的模型置信水平分布。336 个问题的模型准确率为 63%。
 
我们使用自动和人工评分方法来评估模型的准确性。对于 5,000 个问题的样本,我们提示 LLM (GPT-4o) 来确定琐事 QA 中的参考答案是否与问题上下文中的 LLM 答案具有相同的含义。对于 336 个问题的样本,我们还应用了人工评分。对于 97% 的问题,自动评分和人工评分一致。336个问题子集的模型准确性基于人工评估。
 
行为实验
本节描述了我们用于行为实验的方法。实验 1 向参与者提供了 LLM 的默认解释,而实验 2 提供了因不同类型的不确定性语言和总长度而改变的解释(所有实验的概述见表 1)。在每个实验中,在不同的参与者组中,我们改变了问题的类型以及法学硕士的类型。实验 1a 和 2a 对 MMLU 多项选择题使用 GPT-3.5 的解释。实验 1b 和 2b 对 MMLU 多个问题使用了 PaLM2 的解释。最后,实验 1c 和 2c 对琐事 QA 简答题使用了 GPT-4o 的解释。补充信息(“实验 3”)描述了附加实验 3 的结果,该实验旨在验证我们的结果推广到不同的方式来改变解释中的不确定性语言类型。
 
参与者
共有 301 名参与者完成了实验 1 和 2 的研究(表 1 显示了实验细分)。参与者是居住在美国的母语为英语的人,通过 Prolific (www.prolific.com) 招募。获得了 284 名参与者的人口统计数据。有 146 名女性参与者和 138 名男性参与者。中位年龄为 34 岁(年龄范围为 18 至 79 岁)。补充表1按实验列出了人口统计信息的细目。加州大学欧文分校机构审查委员会批准了该实验方案。完成实验 1a、1b、2a 或 2b 的参与者获得了 8 美元的参与报酬。实验 1c 和 2c 的参与者完成研究所需的时间更少,并获得了 5 美元的报酬。实验之间的付款对应于每小时约 12 美元。在参与之前,所有个人都提供了知情同意书,并收到了概述实验过程以及如何理解用户界面并与之交互的详细说明。参与者还被要求在阅读所有说明后签署一份诚信承诺书,声明他们将尽最大努力完成实验。在提交诚信承诺后,参与者被授予参与实验的权限。
 
实验程序
在所有实验中,参与者被随机分配 40 个问题(从 350 个多项选择题池或 336 个简答题池中)。对问题进行抽样以平衡模型置信箱,确保所有参与者都能接触到各种难度级别的问题。
 
此外,在实验 2a、2b 和 2c 中,我们平衡了问题之间的解释风格类型,以便每个问题以每种风格呈现的次数大致相同。应该指出的是,对于每个主题,每个问题只提出一次,每个问题只得到一种解释风格。平衡确保同一问题对每种解释风格(跨参与者)具有(大致)相同数量的观察。
 
对于多项选择题,参与者的任务被分为每个问题的两个阶段(扩展数据图。2). 在第一阶段,参与者必须提供法学硕士答案正确的概率估计。在第二阶段,参与者必须在法学硕士的协助下回答问题。参与者被指示在为这一阶段选择自己的答案时使用他们自己的知识以及法学硕士的回答。对于简答题,参与者只需提供法学硕士答案正确的概率估计。他们被指示不要查找答案。对于简答题,省略了问答阶段,以防止参与者查找答案。
 
在实验结束时,我们进行了一项简短的调查,参与者在调查中自我评估了他们对与多项选择题和简答题相关的主题的了解。如果参与者遇到与实验中遇到的问题类似的问题,则要求他们估计每个主题的预期准确性。
 
创建具有不同程度不确定性的解释风格
本节介绍我们如何构建提示,以在实验中使用不同程度的不确定性语言引出解释。表2包含两种实验和风格的解释示例。有关所使用的确切提示的其他详细信息,请参阅补充表 3。
 
实验1
为了生成实验 1 的基线解释,我们使用了一个简单的提示来要求解释,该提示也会重复答案。
 
实验2
在实验 2 中,根据答案中表达的置信度以及答案的长度来纵解释。该实验总共包括九种解释(三个不确定性级别×三个长度级别)。三个置信度级别(低、中和高)是由指示法学硕士在解释中分别“提及您不确定/有点确定/确定”的提示生成的。提示引发的响应是,其中每个解释的开头都指示不确定性程度(例如,对于低置信度提示,“我不确定答案是 [B],因为”)。请注意,不确定性的表达并不局限于解释的开头。答案通常包含对法学硕士缺乏信心的原因的额外解释(例如,“可能需要进一步研究来证实这一点”和“不可能明确地说明这一点......”)。实验 2 还在三个级别上改变了解释的长度:长、短和仅不确定性。冗长的解释是由于没有包含任何关于答案长度的说明而产生的。简短的解释是通过添加指令在解释中使用尽可能少的单词来生成的。仅不确定性的解释是通过删除答案的基本原理并仅包括不确定性和答案的表达(例如,“我不确定答案是 [B]”)而产生的。
 
对于实验 2,长解释和短解释的中位长度如下:115 和 34 个单词(GPT-3.5,多项选择)、64 和 24 个单词(PaLM2,多项选择)以及 95 和 24 个单词(GPT-4o,简答题)。相比之下,仅不确定性的回答在所有实验变体中包含 9 个单词的中位数。
 
指标
为了研究多项选择题和简答题答案的准确性与与之相关的置信度(人类置信度或模型置信度)之间的关系,我们利用一系列指标来评估这种关联。主要重点是了解置信水平与答案正确性的相关性。为了实现这一目标,我们同时使用 ECE 和 AUC 指标。这些指标评估预测过度置信的程度,以及置信度分数在区分正确和错误答案方面的诊断有效性13,18,23,24,46.在这种情况下,AUC 的使用与心理学中元认知辨别或敏感性的各种指标相似,这些指标同样旨在评估置信度分数在区分正确和错误答案方面的有效性47.此外,在补充信息(“过度置信错误”)中,我们还显示了过度置信错误 (OE) 附加指标的结果。
 
ECE
我们使用 ECE 评估校准错误,详见参考文献。 48,49.ECE 是通过平均 M 个等宽概率箱的准确性和置信度之间的绝对差异来计算的
 
$${\rm{ECE}}=\mathop{\sum }\limits_{m=1}^{M}\frac{|{B}_{m}|}{N}|{\mathrm{conf}}({B}_{m})-{\mathrm{acc}}({B}_{m})|,$$ (2)
其中 N 表示总样本数,Bm表示第 m个置信度 bin,并且 acc(Bm) 和 conf(Bm)分别表示第m个bin中样本的准确度和平均置信度。ECE 不分别考虑每个 bin 的准确度和置信度之间的偏差方向,因此非零 ECE 可能表示置信度过高和置信度不足的混合。虽然最近的工作 50,51已经表明 ECE 可以低估真实的校准误差,低估的可能性应该不是问题,因为我们感兴趣的是分析 ECE 的差异而不是对误差本身的公正估计。
 
AUC
AUC 指标用于评估置信度分数在区分正确和错误答案方面的诊断能力。利用 Mann-Whitney U 统计方法,AUC 表示随机选择的正确答案与随机选择的错误答案相比具有更高置信度分数的概率
 
$${\rm{AUC}}=\frac{1}{{N}_{{{\mathrm{pos}}}\times {N}_{{\mathrm{neg}}}}\mathop{\sum }\limits_{i=1}^{{N}_{{\mathrm{pos}}}}\mathop{\sum }\limits_{j=1}^{{N}_{{\mathrm{neg}}}}I({C}_{i} > {C}_{j}),$$ (3)
其中 N位置和 N负分别表示正确(正面)和错误(负面)答案的计数。丙我和 Cj分别表示第 i个和第 j个正确和错误答案的置信度分数。I 是一个指示函数,如果 C 等于 1我> Cj否则为 0。该方法评估每对正确和错误答案,以确定正确答案的置信度分数是否超过错误答案的置信度分数。AUC 是满足此标准的这些对的分数,衡量置信度分数区分正确和错误答案的能力,AUC 值范围从 0.5(表示不优于机会辨别)到 1(表示完美辨别)。
 
统计分析
为了评估统计显着性,我们利用 BF 来确定观察到的数据在多大程度上调整了我们对备择假设和原假设的信念。BF < 10 和 BF >10 的值为 3 <分别表示反对原假设的中等和强证据。同样,BF < 1/3 和 BF <1/10 < 的值为 1/10 分别表示支持原假设的中等和强有力证据。我们使用参考文献推荐的默认先验报告贝叶斯 t 检验的 BF。52.
[返回]
上一篇:LLM 生成的信息可以在政策问题上说服人类
下一篇:用于多智能体强化学习的 LLM 指导决策工具包