迈向准确的心理模拟：调查 LLM 对性格和文化变量的反应 - 博士论文 - 一起赢论文辅导网--专业代写代发SCI、EI、核心期刊、代写MBA、硕博毕业论文。QQ910330594

欢迎访问一起赢论文辅导网

加入收藏 | 设为主页 | 联系我们

本站动态

联系我们

QQ：3949358033

微信：paperwinner

工作时间：9:00-24:00

成功案例

博士论文

当前位置：首页 > 博士论文

迈向准确的心理模拟：调查 LLM 对性格和文化变量的反应

来源：一起赢论文网日期：2025-05-10 浏览数：718 【字体：大中小】

一个: 中国人民大学心理学系，北京，100872，中国

b: 中国人民大学心理学系实验室，北京， 100872，中国

2024 年 12 月 31 日接收，2025 年 3 月 30 日修订，2025 年 4 月 27 日接受，2025 年 4 月 28 日在线提供，记录版本于 2025 年 5 月 2 日。

处理编辑：Jen-Her Wu

https://doi.org/10.1016/j.chb.2025.108687 获取权利和内容

突出

•
提示变化会显著影响 LLM 响应，而温度则不会。
•
LLM 在积极特征方面的得分高于人类，在消极特征方面的得分较低。
•
第一反应提示减少了 LLM 的社会期望偏差，类似于人工测试。
•
LLM 难以模拟文化差异。

抽象

大型语言模型（LLM）已经展示了复杂的语言理解能力，使其成为心理学研究的潜在工具。然而，在评估它们的心理特性方面仍然存在挑战，特别是在提示设计、与人类数据的比较以及模拟不同文化群体之间真实世界心理差异的能力方面。本研究调查了 LLM 如何应对性格评估和文化变量，解决了以前研究中的差距。

在三项研究中，我们探讨了模型参数和提示变化对 LLM 对性格测试反应的影响。研究 1 检查了温度、模型类型和提示模板如何影响 LLM 响应，揭示了虽然温度设置的影响很小，但提示变化会导致显着差异。研究 2 将 LLM 的自我报告性格分数与人类数据（N = 18,192–49,159）进行了比较，发现 LLM 在积极特质（例如外向）方面的得分较高，在消极特质（例如精神病）方面的得分较低，这反映了他们的培训偏差。研究 3 通过评估来自中国和美国的虚拟科目来测试 LLM 模拟文化差异的能力。虽然在各组之间观察到显著差异，但两组都表现出东亚的自我建构模式，表明在模拟真实文化心理差异方面存在局限性。

这些发现强调了提示设计对 LLM 反应的影响、LLM 和人类性格特征之间的差异以及模拟准确文化心理差异的难度。这些结果强调了使用 LLM 进行心理模拟时需要更精细的方法，并表明当前的模型难以准确表示不同的人类心理特征。

介绍

大型语言模型（LLM），尤其是生成式预训练转换器（GPT）系列，在自然语言处理和生成方面取得了重大进步。这些模型改变了人机交互，使对话变得非常类似于人类社交交互。因此，LLM 现在广泛用于各个领域，从内容创建和编程到投资和招聘等领域的关键决策（Kung 等人，2023 年;Makridakis等人，2023 年）。这些模型模拟类人交互的能力已经变得如此明显，以至于它们在某种程度上通过了区分人类和机器行为的传统“图灵测试”（Turing， 1950）。这在它们在 Character.AI 和 Pi.ai 等情感陪伴产品中的使用中很明显。

LLM 中类似人类行为的出现促使研究人员应用心理学框架来更好地理解这些模型。正如 OpenAI 前首席科学家 Ilya Sutskever 在 2023 年 4 月指出的那样，“也许我们正在达到一个点，心理学语言开始适合理解这些神经网络的行为”（Eye on AI，2023 年）。Hagendorff （2023）将这个新兴领域概念化为人工智能心理学（AIP）或机器心理学（MP），将其与传统的人机交互（HCI）区分开来。在各种心理评估工具中，自我报告问卷与 LLM 基于词汇的性质密切相关，已被证明对研究这些模型特别有效（Goldberg，1992）。最近的研究使用这些工具来探索 LLM 的人格特征和文化认知特征（Jin 等人，2023 年;Li et al.， 2024;Mei et al.， 2024;Miotto et al.， 2022）。将心理学工具应用于 LLM 的理论基础源于他们对大量人类生成数据的训练，这表明人类设计的评估可以有效地评估 LLM 的行为和认知，结果可能反映人类的反应分布（Demszky et al.， 2023）。这些调查揭示了特定的模式：GPT 模型在评估中表现出稳定的人格特质（Li et al.， 2024;Mei et al.， 2024），经常在某些指标上显示类似人类的平均曲线（Miotto et al.， 2022），而在其他指标上表现出一致的偏差。虽然关于 LLM 是否具有真正的自我意识的争论仍在继续（Hamid，2023 年），但通过心理评估分析它们的行为模式并将其与人类反应进行比较，为人类-人工智能交互环境中的理论理解和实际应用提供了有价值的见解。这种方法与 Bommasani 等人（2021 年）的观察一致，即由于神经网络的内部机制从根本上仍然难以解释，心理评估提供了一种替代方法——通过可观察的输出来评估 AI 系统，而不是试图解码其不透明的内部表示。这反映了人类心理学传统上通过行为指标而不是直接的神经检查来衡量心理结构的方式。

尽管有这些有希望的发现，但一些方法论挑战限制了当前机器心理学研究的可靠性和有效性。这些挑战包括：（1）参数标准化：控制响应变异性的不一致温度设置使交叉研究比较变得困难。一些研究对多个样本使用默认设置（Mei等人，2024 年），而另一些研究则依赖于确定性输出（Huang等人，2023 年）。（2）快速工程效应：虽然快速设计对模型响应的影响是众所周知的，但在心理评估中尚未得到充分探索。（3）人口模拟：虽然可以通过直接提示来纵特定的人格特征（Huang et al.， 2023），但 LLM 准确模拟人口群体之间心理差异的能力尚未得到充分测试。这些方法论上的挑战阻碍了机器心理学研究的进展，并引发了对这一新兴领域研究结果的可靠性、有效性和普遍性的质疑。因此，本研究旨在通过调查模型参数和提示设计对心理测量的影响，并探索 LLM 模拟不同人口群体的人类心理特征的能力来解决这些差距。

[返回]

上一篇：通过基于 LLM 的动态航路点生成实现强大的移动机器人路径规划
下一篇：人工和LLM生成的新闻文本中的对比语言模式