欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033
微信:paperwinner
工作时间:9:00-24:00
MBA论文
当前位置:首页 > MBA论文
基于大语言模型的大规模人群生物年龄预测
来源:一起赢论文网     日期:2025-09-19     浏览数:473     【 字体:

 基于大语言模型的大规模人群生物年龄预测

 
衰老是导致死亡和慢性病的一大风险因素,给社会带来沉重的健康负担1,2,3,4,5.先前的研究表明,衰老是一个复杂的多维过程 6,7,在身体上表现出显着的异质性 8,9风琴10,11,12分子的 13,14和其他级别 2,7,受环境、遗传等多种因素影响15.对于临床实践,整体衰老代理可以更好地评估综合健康状况,而器官特异性衰老代理可以深入了解特定器官的健康状况。所有代理都不能用实际年龄来充分表示。因此,必须开发整体和特定器官的衰老代理,以更准确地反映多维衰老的进展,从而告知健康风险和潜在的干预措施2,8,16.尽管有这种需要,但开发实用的方法来准确、方便地评估大规模普通人群的衰老情况仍然是一个严峻的挑战8.
 
先前的研究已经开发了各种衰老代理,例如衰弱指数和生物年龄。衰弱指数从身体、认知、心理、感官、营养、社会和疾病等多个方面评估整体衰老7,17,18,而生物年龄则从生物标志物(例如表观遗传学)的角度反映了整体或器官特异性衰老19,20,21表 22,23和多组学标记10,13,24,25.尽管这些代理有希望,但它们面临着三个关键挑战:方法学限制、与不良结果的关联较弱以及普遍性有限8,13 .首先,传统的生物年龄模型通常使用以实际年龄为标签的监督学习方法进行训练13.有证据表明,虽然更大的样本量和更高维度的特征提高了按实际年龄预测的准确性,但它们也倾向于消除年龄差距与衰老之间的关联13.其次,传统的生物衰老代理与不良健康结果的关联较弱8,13 .这可能是由于以前的代理仅捕捉到衰老的特定方面,而忽略了其他影响因素。虽然衰弱指数与不良结局的相关性相对较强,但目前仅限于评估整体衰老,主要应用于中老年人群7,18 .第三,大多数代理都是为特定人群设计的,限制了它们在不同地区的普遍性8.此外,在现实世界的医疗保健环境中,大规模普通人群的衰老评估还需要考虑经济成本和便利性。例如,由于成本高且程序复杂,测量表观遗传数据通常是不切实际的。
 
有人提出,无监督模型而不是有监督模型可能更适合捕获老化信号13.作为迄今为止最先进的无监督模型,大型语言模型 (LLM) 首先对各个领域的大量知识进行预训练,以获得通用能力26.然后,对他们进行微调以激活其特定领域的专业知识,包括老化。在实践中部署时,LLM可以利用获得的衰老相关知识和个性化健康信息,通过生成最可能的token来直接推断个体的衰老状况。该框架可以解决上述三个关键挑战。(1)LLM避免了传统监督模型中经常遇到的缺乏衡量衰老的标签的问题13. (2)法学硕士整合了更广泛的相关因素,如生物学指标、生活方式、社会经济地位、病史和遗传因素,这些因素与衰老显着相关15推断个体衰老。这加强了衰老代理与不良结果之间的关联。(3) 法学硕士可以处理任何格式的数据,这与需要预定义格式的传统机器学习 (ML) 模型不同。这种便利性使它们非常适合初级医疗保健环境中的大规模应用。仅凭健康检查报告,法学硕士就可以快速提供对个人整体和器官特定衰老的全面评估,促进专家级医疗保健资源的公平性和可及性27.因此,本研究的重点是采用和验证法学硕士来评估不同普通人群的多维衰老,旨在探索该框架的更广泛应用。
 
在这里,我们利用了五个具有全国代表性的人群:英国生物样本库 (UKB)、国家健康与营养检查调查 (NHANES)、中国健康与退休纵向研究 (CHARLS)、中国纵向健康长寿调查 (CLHLS) 和中国家庭小组研究 (CFPS),以及我们的数据,中国西北真实世界和基于人群的队列 (NCRP),总计超过 1000 万个样本来评估拟议框架的性能。本研究的概述如图所示。1. 首先,我们基于常规健康指标构建文本健康检查报告,并聘请 8 名 LLM 通过提示学习评估个体整体和器官特异性衰老(提示如扩展数据图 1 所示。1). 我们将这些 LLM 预测的年龄定义为更全面的衰老代理,源自多种测量的组合。随后,我们通过检查预测年龄、年龄差距(LLM 预测年龄与实际年龄之间的差异)和多种与衰老相关的不良结果之间的关联来验证这些代理。我们将结果与传统 ML 模型和其他经典衰老代理(例如,表观遗传年龄、端粒和衰弱指数)进行了比较。最后,我们检查了法学硕士的动态衰老评估能力,在生物学和临床下游任务中应用了年龄差距,并对法学硕士在评估衰老方面进行了可解释性分析。
 
图1:研究概述。
图1
a,使用法学硕士预测总体年龄和器官特异性年龄的框架。器官特异性年龄包括心血管、肝、肺、肾、代谢和肌肉骨骼年龄。b,对六个不同人群的验证。我们首先验证了与传统 ML 模型和其他经典衰老代理相比,LLM 预测的年龄是否与衰老相关表型和不良健康结果表现出更强的关联。然后,我们对六个队列进行了生存分析,以验证年龄差距的表现,以区分不良健康结局的风险。c,进一步探索法学硕士的优势、基于法学硕士的年龄差距的应用和可解释性分析。我们检查了法学硕士的动态和纵向衰老评估能力,并探索了基于法学硕士的年龄差距在生物学和临床下游任务中的应用,例如识别与加速衰老相关的蛋白质组学生物标志物和模拟个体健康风险。可解释性分析揭示了法学硕士的内部预测过程。图像是使用 BioRender 创建的。
 
全尺寸图像
结果
研究参与者
六个基于人群的队列包括 UKB(n = 489,391,年龄范围 38-73 岁,54.3% 女性)、NHANES(n = 2,009,年龄范围 50-75 岁,48.3% 女性)、NCRP(n = 9,633,240,年龄范围 18-110 岁,52.5% 女性)、CHARLS(n = 17,870,年龄范围 40-70 岁,50.8% 女性)、CLHLS(n = 33,173,年龄范围 80-123 岁, 61.6% 女性)和 CFPS(n = 19,242,年龄范围 40-70 岁,51.0% 女性),总计 10,194,925 名参与者。在 UKB 11-16 年、NHANES 17-20 年、NCRP 5 年、CLHLS 10-20 年和 CFPS 6-10 年的随访期间,分别记录了 42,737 例 (8.7%)、875 例 (43.6%)、307,331 例 (3.2%)、24,293 例 (73.2%) 和 1,135 例 (5.9%)死亡。CHALS中的死亡记录并非每次随访都会发布,因此我们没有进行相关分析。此外,在 UKB 中,LLM 预测的总年龄的中位数为 62 岁(范围 35-85 岁)。其他种群特征见附表1。
 
法学硕士有效预测总体年龄和器官特异性年龄
为了验证 LLM 可以有效预测总体年龄和器官特异性年龄,我们进行了多项分析,将 LLM 的预测与其他衰老代理进行比较,包括实际年龄、衰弱指数(补充表 2)、端粒长度、八个表观遗传年龄和四个 ML 预测年龄(方法)。
 
我们首先比较了 6 种不同的衰老代理和 12 种与衰老相关的表型之间的关联。代理包括实际年龄、四个 ML 预测的总体年龄和 LLM 预测的总体年龄。结果表明,法学硕士预测的总年龄比其他代理具有五种表型表现出更强的关联:足跟骨矿物质密度(β = -0.127,95% CI -0.140 至 -0.115)、牙齿问题(β = 0.170,95% CI 0.144-0.197)、步行速度慢(β = 0.521,95% CI 0.456-0.586)、长期疾病(β = 0.514,95% CI 0.483-0.546)和虚弱指数(β = 0.226, 95% CI 0.214–0.237)。此外,与 ML 预测的四个总体年龄相比,LLM 预测的总体年龄在十种表型之间显示出更强的相关性(图 102a)。
 
图 2:LLM 预测的总体年龄和器官特异性年龄的验证。
图2
a,我们为每个衰老相关表型和每个衰老代理构建了单独的线性或逻辑回归模型,并调整了常见的协变量。在UKB测试集中估计了标准化回归系数(β)(n = 53,704)。使用双样本t检验(双侧)比较了LLM预测的总体年龄与其他衰老模型的β之间的差异。误差线表示具有95%CI的β估计值。b,c,我们比较了LLM预测的总体年龄、传统ML预测的总体年龄和经典衰老代理在预测不良健康结局方面的表现。对于每个健康结果,我们只纳入了无病参与者。我们采用 Cox 模型来计算每个衰老代理的 C 指数。Cox 模型中不包含协变量。b 中的数据在 UKB 测试集 (n = 53,704) 中进行,进行了十倍交叉验证,在 c 中,在 NHANES (n = 2,009) 中进行,进行了十倍交叉验证。误差线代表平均 C 指数和 95% CI。d,对于器官特异性年龄,我们在 b 中重复了该过程,将 LLM 预测的器官特异性年龄与从 ML 模型获得的年龄进行比较。不同子图中的年龄代表不同的器官特异性年龄。例如,在CHD(心血管)子图中,LLM年龄代表LLM预测的心血管年龄。SCTD,系统性结缔组织病;P < 0.001;**P < 0.01;*P < 0.05。
 
源数据
 
全尺寸图像
然后,我们进一步比较了八个衰老代理在预测 36 种健康结果方面的一致性指数 (C 指数)。LLM 预测的总体年龄在全因死亡率 (0.757, 95% CI 0.752–0.761)、冠心病 (CHD) (0.709, 95% CI 0.698–0.721)、中风 (0.733, 95% CI 0.714–0.752)、慢性阻塞性肺疾病 (COPD) (0.735, 95% CI 0.714–0.757)、肾功能衰竭 (0.767, 95% CI 0.758–0.775)、关节炎 (0.673, 95% CI 0.666–0.681) 和其他 22 种结局方面表现出优异的 C 指数 (图2b 和扩展数据图。此外,我们分析了 NHANES 1999-2002 队列的数据,以比较 LLM 预测的总体年龄与八个表观遗传年龄在预测全因和特定原因死亡率方面的预测性能。结果增强了我们对 UKB 的发现,表明 LLM 预测的总体年龄在预测全因死亡率(0.716,95% CI 0.697-0.735)和特定原因死亡率方面始终实现更高的 C 指数(图。2c). 为了进一步验证 LLM 预测的器官特异性年龄在预测器官特异性疾病方面是否优于 ML 预测的年龄,我们还比较了它们的 C 指数。结果表明,LLM 预测的心血管、肝脏、肾脏和肌肉骨骼年龄对于相应的器官特异性结果都表现出显着更高的 C 指数(图2d)。
 
Sensitivity analyses were conducted to assess the robustness of our findings (Methods). Results indicated that the performance of LLMs was robust and not significantly influenced by factors such as report writing styles or prompt template variations (Supplementary Figs. 1–4 and Supplementary Table 3).
 
Age gaps are strong predictors for adverse outcomes onset
根据模型预测的年龄,可以计算出相应的年龄差距。具体来说,基于 LLM 的年龄差距是指 LLM 预测年龄与实际年龄之间的差异,而基于 ML 的年龄差距则定义为将 ML 预测年龄回归到实际年龄的残差(方法)。我们首先比较了来自法学硕士的总体年龄差距与具有 12 种衰老相关表型的四个 ML 模型之间的关联。结果表明,与ML模型相比,基于LLM的总体年龄差距与大多数表型表现出更强的关联(图。3a)。
 
图 3:基于 LLM 的年龄差距的验证。
图3
a,我们为每个衰老相关表型和每个年龄差距构建了单独的线性或逻辑回归模型,并调整了常见的协变量。在 UKB 测试集中估计标准化回归系数 (β) (n = 53,704)。使用双样本 t 检验(双侧)比较基于 LLM 的总体年龄差距与其他衰老模型的β之间的差异。误差线表示β估计值为 95% CI。b,我们采用生存分析比较了总年龄差距与知识管理曲线区分不良健康结局风险的能力,将总年龄差距分为前10%组、中间10%组和后10%组。阴影代表 95% CI。c,使用 Cox 模型估计器官特异性年龄差距与不良健康结果之间的关联,并调整常见协变量。在整个UKB人群(n = 489,391)中获得了器官特异性年龄差距的风险比和95%CI,结果表示为误差线。d,我们计算了器官与整体年龄差距,这表明与整个身体相比,特定器官的衰老速度有多快。使用 Cox 模型估计这些器官整体年龄差距与不良健康结果之间的关联,并调整了常见的协变量。在整个UKB人群(n = 489,391)中进行了分析,误差线代表估计的风险比和95%CI。心血管、心血管年龄差距;肝脏、肝脏年龄差距;肺、肺年龄差距;肾脏、肾脏年龄差距;代谢、代谢系统年龄差距;肌肉骨骼、肌肉骨骼年龄差距;CV-总体,心血管-整体年龄差距;肝-总体,肝-整体年龄差距;Pulm-总体,肺-整体年龄差距;任-总体,肾脏-整体年龄差距;Met-Overall,代谢-总体年龄差距;MSK-总体,肌肉骨骼-整体年龄差距;P<0.001;**P < 0.01;*P < 0.05。
 
源数据
 
全尺寸图像
然后,我们估计了基于法学硕士的总体年龄差距与不良健康结局之间的关联。对于特定结局,在基线时无病的受试者中,我们选择了总年龄差距中前10%、中间10%和后10%的个体进行生存分析。随着总体年龄差距的扩大,Kaplan-Meier (KM) 曲线显示随访期间事件的累积发生率呈增加趋势(图 1999)。3b),表明总体年龄差距可以区分疾病风险。即使在调整了Cox模型中的常见协变量后,总体年龄差距仍然是全因死亡率(风险比(HR)1.055,95%CI 1.050–1.060)、冠心病(HR 1.072,95%CI 1.067–1.077)、中风(HR 1.058,95%CI 1.049–1.067)和其他结局(补充表4)的独立危险因素。
 
为了估计基于LLM的器官特异性年龄差距与健康结果之间的关联,我们应用了Cox模型,调整了常见的协变量(图。3c和补充表4)。在UKB中,心血管年龄差距的增加与心血管疾病表现出更强的关联,例如冠心病(HR 1.045,95% CI 1.042–1.049)和中风(HR 1.029,95% CI 1.022–1.035)。其他五个器官的年龄差距也发现了类似的模式,表明每个器官特异性年龄差距与相应的器官特异性疾病都有更强的关联。
 
值得注意的是,我们还发现器官-整体年龄差距是健康结果的独立风险因素(方法和图。3d)。这种器官-整体年龄差距表明,与整个身体相比,特定器官的衰老速度有多快。Cox 分析表明,心血管-整体年龄差距是八种健康结果的重要危险因素,并显示出与冠心病(HR 1.073,95% CI 1.064-1.082)和中风(HR 1.063,95% CI 1.047-1.079)的关联最强。此外,其他器官整体年龄差距的扩大也与器官特异性疾病的较高风险有关(补充表 5)。综上所述,对于衰老速度快于全身的器官,相应的疾病风险也会增加。
 
在补充分析中,我们将基于法学硕士的年龄差距与端粒长度、衰弱指数和其他年龄差距的预测性能进行了比较(扩展数据图。2b 和 3)。结果表明,对于大多数健康结果,基于法学硕士的年龄差距达到了最高的 C 指数。
 
法学硕士在衰老评估中的优势
除了无监督老化建模能够更好地预测不良结局外,法学硕士在老化评估方面还具有三个优势,包括强大的泛化性、能力演化和动态老化评估。
 
为了实现普遍性,我们对 NCRP、CHARLS、CFPS 和 CLHLS 重复了上述分析。在 NCRP、CHARLS 和 CFPS 中观察到了类似的结果和主要发现(图4a,b 和扩展数据图。4a–c,f,g),表明 LLM 具有很强的普遍性;然而,在 CLHLS 和 NCRP 的老年参与者中发现了相反的结果(扩展数据图4d,e,h),这意味着当前的 LLM 可能不太适合评估老年人的衰老。
 
图 4:利用 LLM 进行衰老评估的优势。
图4
a,b,基于法学硕士的老龄化评估框架对 NCRP 人群的普遍性。我们比较了不同总体衰老代理在预测不良健康结局方面的表现。对于每个健康结果,我们只纳入了无病参与者 (a)。我们采用 Cox 模型来计算 NCRP 测试集中每个老化代理的 C 指数 (n = 84,535),并进行了十倍交叉验证。Cox 模型中不包含协变量。误差线代表平均 C 指数和 95% CI。我们采用生存分析(KM曲线)来比较总体年龄差距区分不良健康结局风险的能力(b)。阴影代表 95% CI。c,法学硕士的能力演进。我们分别估计了八个法学硕士预测的总体年龄与健康结果之间的关联。这些具有不同参数大小和版本的 LLM 是 Llama 和 Qwen 系列的一部分。我们采用 Cox 模型来计算合并的 UKB 测试集 (n = 37,548) 中每个 LLM 的 C 指数,并进行了十次交叉验证。误差线代表平均 C 指数和 95% CI。d,LLM的动态老化评估能力。我们分析了 NCRP 纵向队列中连续三年接受年度健康检查的个体 (n = 462,262)。我们设计了两个实验组和一个对照组进行比较(详见方法)。我们采用Cox模型来计算每个年龄差距组预测不良健康结局的C指数(五重交叉验证),误差线代表95%CI。stat-pred,静态预测;dyn-pred,动态预测。
 
源数据
 
全尺寸图像
对于能力演变,我们比较了八名法学硕士在预测健康结果方面的预测年龄。结果表明,在大多数健康结果中,Llama3-70B-Instruct 的 C 指数高于 Llama3-8B-Instruct。同样,在Qwen1.5和Qwen2系列中,随着模型参数大小的增加,C指数出现上升趋势。此外,Qwen2-72B-Chat在大多数情况下优于Qwen1.5-72B-Chat,与参数低于32B的Qwen1.5模型相比,Qwen2-7B-Chat实现了更高的C指数(图1.5)。综上所述,更大的参数和较新的法学硕士通常预测得更好。这意味着通用法学硕士可以通过增加知识密度来增强其老龄化评估能力,而不需要对额外的人口数据进行增量训练,这强调了能力进化的优势。
[返回]
上一篇:An automated framework for assessing how well LLMs cite relevant medical references
下一篇:多智能体系统中群体一致性的实证研究