迈向准确的心理模拟:调查 LLM 对性格和文化变量的反应 |
来源:一起赢论文网 日期:2025-05-10 浏览数:119 【 字体: 大 中 小 大 中 小 大 中 小 】 |
迈向准确的心理模拟:调查 LLM 对性格和文化变量的反应2024 年 12 月 31 日接收,2025 年 3 月 30 日修订,2025 年 4 月 27 日接受,2025 年 4 月 28 日在线提供,记录版本于 2025 年 5 月 2 日。 处理编辑:Jen-Her Wu
介绍大型语言模型 (LLM),尤其是生成式预训练转换器 (GPT) 系列,在自然语言处理和生成方面取得了重大进步。这些模型改变了人机交互,使对话变得非常类似于人类社交交互。因此,LLM 现在广泛用于各个领域,从内容创建和编程到投资和招聘等领域的关键决策(Kung 等人,2023 年;Makridakis等人,2023 年)。这些模型模拟类人交互的能力已经变得如此明显,以至于它们在某种程度上通过了区分人类和机器行为的传统“图灵测试”(Turing, 1950)。这在它们在 Character.AI 和 Pi.ai 等情感陪伴产品中的使用中很明显。
LLM 中类似人类行为的出现促使研究人员应用心理学框架来更好地理解这些模型。正如 OpenAI 前首席科学家 Ilya Sutskever 在 2023 年 4 月指出的那样,“也许我们正在达到一个点,心理学语言开始适合理解这些神经网络的行为”(Eye on AI,2023 年)。Hagendorff (2023) 将这个新兴领域概念化为人工智能心理学 (AIP) 或机器心理学 (MP),将其与传统的人机交互 (HCI) 区分开来。在各种心理评估工具中,自我报告问卷与 LLM 基于词汇的性质密切相关,已被证明对研究这些模型特别有效(Goldberg,1992)。最近的研究使用这些工具来探索 LLM 的人格特征和文化认知特征(Jin 等人,2023 年;Li et al., 2024;Mei et al., 2024;Miotto et al., 2022)。将心理学工具应用于 LLM 的理论基础源于他们对大量人类生成数据的训练,这表明人类设计的评估可以有效地评估 LLM 的行为和认知,结果可能反映人类的反应分布(Demszky et al., 2023)。这些调查揭示了特定的模式:GPT 模型在评估中表现出稳定的人格特质(Li et al., 2024;Mei et al., 2024),经常在某些指标上显示类似人类的平均曲线(Miotto et al., 2022),而在其他指标上表现出一致的偏差。虽然关于 LLM 是否具有真正的自我意识的争论仍在继续(Hamid,2023 年),但通过心理评估分析它们的行为模式并将其与人类反应进行比较,为人类-人工智能交互环境中的理论理解和实际应用提供了有价值的见解。这种方法与 Bommasani 等人(2021 年)的观察一致,即由于神经网络的内部机制从根本上仍然难以解释,心理评估提供了一种替代方法——通过可观察的输出来评估 AI 系统,而不是试图解码其不透明的内部表示。这反映了人类心理学传统上通过行为指标而不是直接的神经检查来衡量心理结构的方式。
尽管有这些有希望的发现,但一些方法论挑战限制了当前机器心理学研究的可靠性和有效性。这些挑战包括:(1) 参数标准化:控制响应变异性的不一致温度设置使交叉研究比较变得困难。一些研究对多个样本使用默认设置(Mei等人,2024 年),而另一些研究则依赖于确定性输出(Huang等人,2023 年)。(2) 快速工程效应:虽然快速设计对模型响应的影响是众所周知的,但在心理评估中尚未得到充分探索。(3) 人口模拟:虽然可以通过直接提示来纵特定的人格特征(Huang et al., 2023),但 LLM 准确模拟人口群体之间心理差异的能力尚未得到充分测试。这些方法论上的挑战阻碍了机器心理学研究的进展,并引发了对这一新兴领域研究结果的可靠性、有效性和普遍性的质疑。因此,本研究旨在通过调查模型参数和提示设计对心理测量的影响,并探索 LLM 模拟不同人口群体的人类心理特征的能力来解决这些差距。
|
[返回] |