| 评估大型语言模型以推动政策制定以缓解无家可归问题 |
| 来源:一起赢论文网 日期:2026-06-14 浏览数:47 【 字体: 大 中 小 大 中 小 大 中 小 】 |
|
评估大型语言模型以推动政策制定以缓解无家可归问题 摘要
大型语言模型(LLM)越来越多地被 在高风险领域采用。它们编码不断演变的社会背景并生成合理情景的潜力,使其成为社会政策制定中有前景的工具。本文评估 LLMs与领域专家(以及内部)在缓解无家可归问题的政策建议上保持一致——这一挑战影响着超过1.5亿人 世界各地的人们。 我们开发了一个新的基准,包括 涵盖四个城市的决策场景,政策选择基于能力的概念框架 人类发展的方法。 我们还展示了一个自动化流程,将策略与基于代理的模型在一个地点连接起来,并比较大型语言模型推荐的政策与专家推荐的政策的社会影响。我们的探索性分析揭示了不同大型语言模型在政策建议上与本地专家的差异,但同时也提出了如果配合负责任的护栏、情境校准和本地领域专业知识,LLMs在政策制定方面可能带来的潜在益处。我们的工作将能力方法应用于计算框架,并以人类尊严为重点,提供了关于无家可归缓解政策制定的新见解。
1简介
联合国将无家可归定义为“缺乏稳定、安全和适当的住房”适宜住房权特别报告员(2022)是一场影响全球城市和国家的日益严重的危机。 据联合国统计,全球估计有16亿人缺乏足够的住房,其中1.5亿人完全无家可归。经合组织报告称,自2022年以来,大多数发达国家的无家可归人数急剧上升经合组织(2024)仅美国在2023年1月单夜就记录了超过653,000名无家可归者丹尼尔·苏西和霍尔(2024). 无家可归代表着基本人类安全和尊严的严重剥夺,破坏了可持续发展目标,而应对这些挑战是打造公平、有韧性社会、不被遗弃的核心要求联合国(2015).
针对这些紧迫的社会挑战,缓解无家可归的政策制定需要超越物质再分配,解决更深层次的需求:确保无家可归者被平等对待,并完全融入社会结构。 这需要拆解结构性污名,促进真正的归属感——这一任务因根深蒂固的社会偏见、常将人们简化为“个案”的官僚体系,以及无家可归者因创伤而孤立的困境所复杂化Curto 等人。 (2025);Ranjit 等人。 (2024).
有效的无家可归缓解政策不仅要分配物质资源,还要积极对抗去人性化和社会排斥高桥(1998);Narayan 等人。 (2000);沃瑟曼和克莱尔(2009)将受影响者的自主性和尊严置于核心,并认识到包容既是伦理上的责任,也是务实的必要。鉴于无家可归的多面性质以及在动态社会系统中预测政策结果的困难,计算方法为应对这一复杂性提供了有前景的途径,并实现了前瞻性的政策测试。计算社会科学的最新进展展示了基于主体模型(ABMs)的潜力,能够为无家可归政策制定提供参考,将无家可归视为多维度的剥夺Aguilera 等人。 (2025).然而,在社会模拟中建模人类行为仍面临重大挑战,比如捕捉潜在心理因素和社会价值的复杂性神位(2021)以及开发符合不同地方政策、不断演变的社会环境和跨地理资源可用性的通用模型的困难Aguilera 等人。 (2025)
在此背景下,LLM在社会系统中的日益广泛集成,其处理大量非结构化数据、探索灵活角色扮演场景以及处理多样化情境因素的能力,使其在复杂场景中为决策提供新见解,具有独特优势王(2024);高等人。 (2023);郭等人。 (2024).尽管具备这些能力,在社会敏感领域部署LLMs,如无家可归政策制定,仍面临严峻挑战。这些因素包括社会偏见的放大Agnew等人。 (2024)产生合理但误导性的输出(“幻觉”),缺乏对人类痛苦和社会动态的真正理解沙纳汉(2024)以及固有的不透明性,使得他们的推理难以审计。因此,在如此高风险的环境中,主动评估其风险和局限性至关重要。
本文旨在通过比较LLM与领域专家的建议来解决这些局限性。我们提出了一个基准,包含决策场景,涵盖全球四个不同地区(美国印第安纳州南本德;西班牙巴塞罗那;南非约翰内斯堡;中国澳门特别行政区)。基准中包含的政策选择基于人类发展能力方法(CA)的概念框架森(1999);努斯鲍姆(2011);罗宾斯(2017).与系统性优先考虑个人物质需求的模式不同马斯洛(1943),CA考虑人类拥有过有尊严生活的机会森(1999).从这个角度看,无家可归可以被视为中央能力的剥夺努斯鲍姆(2011).在我们的基准中,不同情景中提供的政策范围展示了CA在无家可归情况下对人口的核心能力的恢复。 我们对大型语言模型在基准测试中的选择和判断进行了实证评估,并将其与各地理位置领域专家的反馈进行比较。
随后,我们提出了一种新颖的流程,能够自动将政策与ABM框架连接起来,旨在评估LLM生成政策与领域专家提出政策在模拟社会环境中的社会影响。具体来说,该方法探讨了策略如何通过现有的状态-动作-转换过程(SAT)来影响代理行为Aguilera 等人。 (2024).我们的研究为利用大型语言模型以可扩展且非侵入式的方式支持社会政策制定开辟了新方向,LLM可用于提出与CA概念框架相符的替代政策,并通过ABM模拟来评估其影响。该论文将能力方法在计算框架中付诸实践,建议政策不仅仅满足无家可归者的基本物质需求,更关注整个社会结构和人类尊严。这项工作是在与领域专家和专注于缓解四大城市无家可归问题的非营利组织紧密合作下进行的。领域专家参与了范围的定义和研究方法。多学科领域专家定义了基线情景,并在基准情景中进行了政策排名。我们工作中的洞见被用来提供信息 在涵盖的四个地点进行持续的政策制定讨论。
5讨论与结论
本文探讨了大型语言模型在支持全球四个城市无家可归缓解政策制定中的潜力,采用基于人类发展能力方法的基准,并辅以基于主体的模拟。该研究的动机源于政府官员、领域专家和非营利组织的需求,他们需要在复杂且不断变化的环境中做出明智决策,且通常时间和数据有限。大型语言模型能够利用大量人工生成的现有数据,并探索灵活的角色扮演场景(即作为领域专家),使其具备独特优势,有望为社会政策制定的复杂性提供新的洞见。然而,鉴于大型语言模型在透明度、可解释性、安全性和伦理等方面目前的局限性,关于其推荐的政策是否值得信赖并对决策者有帮助,仍存在未解之谜。
我们对LLM政策建议的实证调查表明,虽然模型可能学会了类似的推理表达方式,但它们在权重和排序选项上保持多样性。 重要的是,LLMs的选择似乎更优先考虑不同情境下的即时身体安全,而非旨在改善受影响人群社会归属感和减轻排斥的政策。这可能暴露出一种基于全球大型语言模型(LLM)数据过度代表地区无家可归的在线讨论的潜在偏见,且缺乏情境的僵化。相比之下,专家们明显调整了决策,以应对本地编码的社会政治现实,这些现实可能加剧PEH所面临的排斥,如与族裔(南非)或宗教少数群体(南本德)相关的问题。然而,对于ABM模拟的基准中部分场景,我们的发现表明,由大型语言模型选择的政策在社会影响上略有改善,能更好地满足PEH群体的整体需求,而巴塞罗那领域专家选择的政策则更为突出。
与大多数复杂社会议题的计算方法一样,我们的工作存在若干局限性,未来工作需要加以解决。首先,未来政策情景的制定和优先级中应纳入更广泛的非营利组织和领域专家多样性。尽管基线场景是在与领域专家密切合作下创建的,但基准测试中其余场景高度依赖LLM辅助,尽管其提示设计详细,融合了能力方法和本地环境。此外,基准情景和政策目前均为英文。 我们建议未来研究建立整个基准(而不仅仅是基线),由领域专家提出的切实可行的政策,涵盖适用城市的本地语言。最后,基于代理的建模框架允许评估LLM建议策略与领域专家推荐策略的影响,目前仅处理范围内某一地点(巴塞罗那)的策略场景。LLM生成策略与ABM框架之间的流程旨在开辟一条工作路径,通过不同范围的ABM框架大规模评估LLM建议策略。
我们目前的研究结果既凸显了使用大型语言模型为社会政策制定提供信息的既有希望,也提醒我们谨慎。一方面,LLMs与领域专家保持一致,并提出合理的政策建议,在有限的数据和时间限制下,这些建议对政策制定者和非营利组织来说是宝贵的参考。另一方面,我们的发现表明,LLM对本地环境的敏感度低于领域专家,这可能受到来自世界某些地区在线数据过度代表的影响。此外,LLMs似乎没有充分考虑恢复中央人类发展能力(如隶属关系的需求),而领域专家则强调采取措施减轻对PEH的社会排斥。展望未来,在社会政策制定环境中负责任地使用LLM不仅需要技术上的精炼,还需要符合伦理概念框架(如人类发展的能力方法)的有意识评估机制,同时响应本地情境和领域专家的宝贵意见。 |
| [返回] |