欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033
微信:paperwinner
工作时间:9:00-24:00
SCI期刊论文
当前位置:首页 > SCI期刊论文
Towards building multilingual language model for medicine
来源:一起赢论文网     日期:2025-10-16     浏览数:428     【 字体:

 Towards building multilingual language model for medicine

 
在最近的文献中,大型语言模型(LLM)在医疗保健领域显示出巨大的前景,例如GPT-4等闭源模型1和 MedPalm-22表现出了卓越的表现,并顺利通过了美国医学执照考试(USMLE)。同时,像 Llama 2 这样的开源模型也促进了医学专用语言模型的开发,例如 MEDITRON、PMC-LLaMA、MedAlpaca 和 ChatDoctors3,5,6,6,逐渐弥合与闭源同行的性能差距。尽管取得了这些进步,但这些复杂的医学语言模型对英语应用的主要关注限制了它们的潜在覆盖范围,限制了对更广泛的、语言多样化的受众的好处。
 
在开源多语言大型语言模型 (LLM) 领域,以 BLOOM 为例7以及最近的 InternLM 28,尽管他们接受了各种多语言语料库的培训,但一个显着的挑战仍然存在,即他们在非英语语言的医疗查询上表现出不尽如人意的表现,这种差异主要归因于这些通用数据集中医学内容的代表性不足。本文致力于通过开发一种用于医疗保健的开源多语言语言模型来弥合这一差距。如图所示。1,我们的贡献有三:首先,我们收集了专为自回归训练而设计的多语言医学语料库,旨在为准确反映医学领域的语言多样性和复杂性奠定坚实的基础;其次,为了监控进展,我们引入了新的综合多语言医学问答(QA)基准,能够在零样本和微调设置下对不同语言模型的多选择QA和基本原理能力进行评估;最后,我们测试了广泛的现有语言模型,以及那些在我们的语料库上经过自回归预训练的语言模型。通过这种全面的评估,我们旨在为模型的功能提供有价值的见解,并促进对多语言医疗查询处理所涉及的复杂性的更深入理解。
 
图1:我们的贡献概览。
图1
a 该图显示了我们提议的大规模多语种医学语料库(MMedC),其中包含从四个数据源收集的25.5B个标记,涵盖六种主要语言。b 图显示了我们的综合多语言医疗基准(MMedBench)的组成,该基准测试是通过聚合不同语言的医疗QA案例,并提示GPT-4提供基本句子而构建的。MMedBench 支持在零样本或微调设置下评估不同 LLM 的多选择准确性和基本原理生成能力。c 折线图显示了我们的 MMedBench 上各种 LLM 的最终多选精度,其中我们的最终模型 MMed-Llama 3 在所有现有开源 LLM 中表现出最佳性能。d 比较 MMedLM 2 和 InternLM 2 时,比较条进一步详细说明了多选准确性和基本原理生成能力方面的增益, 或将 MMed-Llama 3 与 Llama 3 进行比较。考虑到我们的模型与其基础模型之间的主要区别在于 MMedC 的自回归训练,这种比较凸显了我们贡献的医学特定多语言语料库的重要性。源数据以源数据文件的形式提供。
 
全尺寸图像
对于自回归训练,我们开发了一个大规模的多语言医学语料库(MMedC),积累了超过 255 亿个医学相关代币,涵盖英语、中文、日语、法语、俄语和西班牙语六种主要语言。这个多样化的数据集是从四个不同的来源编译而来的:(i) 我们设计了一个自动管道,从广泛的多语言语料库中过滤医学相关内容,确保数据集集中且相关,(ii) 我们策划了大量各种语言的医学教科书,并将它们转换为经过精心设计的预处理的文本,例如光学字符识别 (OCR), 启发式数据过滤等。我们将分享书籍的名称列表以及策展的方法和工具,(iii)为了保证医学知识的广泛封装,我们整合了一些开源医学网站的文本,以权威和全面的医学信息丰富了我们的语料库,(iv)我们整合了许多现有的小规模医学语料库数据集,进一步增强了我们的广度和深度。据我们所知,MMedC 代表了构建专门针对多语言医学领域的语料库的首次尝试。
 
至于基准管理,我们首先聚合截至 MMedC 的六种语言的现有医学多项选择 QA 数据集。我们使用 GPT-4 进一步增强它们的基本原理内容,通过支持正确答案的解释丰富数据集。因此,我们丰富的数据集包含六种语言的 53,566 个 QA 对,独特地提供多选择 QA 和伴随的基本原理推理。这个广泛的收藏涵盖 21 个医学领域,包括但不限于内科、生物化学、药理学和精神病学等,被称为多语言医学基准 (MMedBench)。我们将其分为 45,048 个训练对和 8518 个测试对。训练拆分可以在特定领域的继续训练后对 LLM 进行微调。我们利用整个测试集(包括 8518 个 QA 对)来评估多项选择题回答的准确性。为了进一步检查模型的推理能力,我们选择了 1136 个 QA 对的子集,每个 QA 对都附有手动验证的基本原理句子,作为推理评估的更专业的基准。
 
在评估阶段,我们对 11 个现有的多语言支持的 LLM 进行了全面的基准测试,包括 GPT-3.5、GPT-4、Gemini-1.0 pro、BLOOM、InternLM、InternLM 2、MedAlpaca、ChatDoctor、PMC-LLaMA、Mistral、BioMistral、MEDITRON、Llama 2 和 Llama 3,以及使用 MMedC 进一步训练的 LLM。这些模型在三种不同的设置下进行了评估:零样本、参数高效微调 (PEFT) 和完全微调。鉴于评估基本原理质量的复杂性,需要评估长句语义完整性,除了利用主流自动化指标外,我们还在分析中纳入了人工评分。这种双重方法不仅提供了对每个模型性能的全面衡量,还使我们能够仔细研究自动化指标与人类判断之间的相关性。通过这种分析,我们确定了用于扩展比较的最可靠指标,从而丰富了评估大型语言模型推理能力的方法。
 
在我们的实验中,在 MMedC 上接受进一步自回归训练的模型始终表现出增强的性能,从而强调了我们编译的多语言语料库的价值和有效性。我们的最终模型 MMed-Llama 3 在多语言和纯英语基准测试中都表现出最佳性能。我们将公开发布我们的数据集(我们将提供名称列表的许可证限制书籍除外)、代码库和经过训练的模型,以促进未来的研究。此外,我们认识到稳健的评估指标的重要性,特别是对于生成通常涉及复杂、长句子的医学文本。为此,我们还将发布个别案例的详细人工评分结果。
 
结果
在这里,我们首先展示我们构建的数据集的统计数据。然后,我们在 MMedBench 上评估了各种 LLM 的多项选择题和基本原理能力,并验证了 MMedC 的有效性。最后,我们进行了一系列消融研究,以调查每个数据集组件的影响。
 
数据统计
我们提供了两个拟议数据集的详细统计数据,即迄今为止最广泛的多语言医学语料库 MMedC 和新的多语言医学基准 MMedBench。
 
我们首先介绍多语言医学语料库(MMedC),它指的是一个包含超过25.5B个token的多语言医学语料库,主要从四个来源获取,即从一般大型多语言语料库、医学教科书、医学网站和现有的小规模语料中过滤医学相关内容。主要统计结果如图所示。2.
 
图2:MMedC的统计结果。
图2
a MMedC 中包含的语言在世界各地的分布(此地图仅供演示,与政治无关。地图显示我们收集的语料库可以覆盖全球大多数主要国家。b 每种语言的代币分配。条形图显示了不同语言的详细标记编号。c 对 MMedC 的 4 种来源对 6 种语言的贡献。桑基图显示了四个考虑的数据源如何为不同的语言做出贡献,即过滤内容、医学教科书、医学网站和小规模语料库。源数据以源数据文件的形式提供。
 
全尺寸图像
具体来说,我们的分析从多语言医学语料库 (MMedC) 的组成开始,该语料库包含六种语言,共同覆盖了全球人口的很大一部分。这种多样性确保了我们的模型在各种语言环境中的广泛适用性,如子图 (a) 所示。随后,子图 (b) 详细列出了这些语言之间的代币分布。值得注意的是,英语占最大的部分,占 42%,而俄语占最小,仅占 7%。然而,需要强调的是,考虑到语料库 255 亿个代币的总量,即使是最小的份额,也会转化为大量的文本——大约 20 亿个代币。最后,子图 (c) 描述了四个不同来源对不同语言数据集的贡献。主要是,从更广泛的数据集中过滤的医学相关内容构成了大多数语言的大部分贡献,并辅以来自医学教科书、医学网站和预先存在的小规模语料库的数据。来源的多样性确保了医学知识的丰富性,从日常医学信息到教科书和百科全书中的更专业的知识。对我们数据源的详细检查揭示了 MMedC 的细微成分,提供了对其多样性和全面性质的见解。
 
然后,为了更好地评估多语言医疗模型的性能,我们进一步提出了一个全面的多语言医疗问答基准(MMedBench)。我们首先深入研究其核心属性,包括训练和测试用例的总数、答案选项的分布以及问答令牌的平均长度。图 3a 说明了这些基本特征,强调 MMedBench 通常包含具有多个正确选项的问题,这给模型导航带来了复杂性。此外,答案包含平均每个代币 200 个代币的基本原理部分。这种大量的标记计数有两个目的:它通过让语言模型接触扩展的推理段落来帮助训练它们,但也有助于评估它们生成和理解冗长、复杂的推理陈述的能力。
 
图 3:MMedBench 上的统计结果。
图3
a 条形图显示了 MMedBench 的训练和测试集上的基础统计量数。术语“平均标记”表示其中各种成分中每个样本的平均标记长度。“理由”表示答案中的理由句子。“选项”表示选项列表中的选项描述,“问题”表示问题句子。然后,术语“多选项的提出”表示具有多个正确选项的问题的比例,“单选项的提出”表示答案中有一个选项的问题的比例。最后一个术语“QA 对数”表示有多少个 QA 对处于训练或测试拆分中。b 统计直方图显示了MMedBench测试分割中的主题分布,涵盖了从普通医学和专科医学到基础医学的广泛医学方面。这使得 MedQA 能够全面衡量医疗模型的性能。源数据以源数据文件的形式提供。
 
全尺寸图像
在我们对 MMedBench 的详细探索中,我们使用 GPT-4 将每个问题分类为 21 个医学主题类别之一。这些类别包括内科、生物化学、药理学、精神病学、微生物学、生理学、病理学、免疫学、妇产科、公共卫生、血液学、外科、急诊医学、骨科、神经病学、解剖学、医学遗传学、放射学、皮肤病学和内分泌学。这种分类已经经过至少两名临床医生的严格验证,以确保其全面性,并涵盖医学学科的广度。
 
图 3b 展示了我们多语言基准的多样性,涵盖从基础临床医学到药理学和公共卫生等专业领域的广泛医学问题,并特别强调内科和生物化学等领域。这强调了基准的有效性,以评估模型有效识别和处理各种医疗查询的能力。
 
MMedBench 上的评估
在本节中,我们将在零样本、PEFT 和完全微调设置下使用我们的 MMedBench 对最重要的 LLM 进行全面的基准测试。我们的评估侧重于模型性能的两个方面:多项选择题的准确性和模型生成基本原理的能力。评估的法学硕士可分为四个不同的类别,即闭源法学硕士、流行的开源法学硕士、医学专用开源法学硕士,以及那些在我们的 MMedC 上进一步接受培训的法学硕士。后三者都可以归入开源法学硕士。
 
最初,我们的分析重点是 OpenAI 和 Google 开发的最先进的专有闭源法学硕士,特别是 GPT-3.5、GPT-4 和 Gemini-1.0 pro。这些模型仅在零样本设置中通过其公开可用的在线 API 进行检查,因为它们无法用于任何进一步的训练。但请注意,由于这些闭源模型的训练数据是保密的,因此很难判断它们是否真的“零样本”。在此之后,我们的评估涵盖了一系列开源法学硕士,例如 Mistral、InternLM 2 和 Llama 3。我们观察到,这些开源 LLM 的响应相对较差,因此很难在零样本设置中进行有效的比较(查看补充材料 F 以了解更多零样本失败案例)。因此,我们在微调设置(PEFT 和完全微调)中比较它们。其中,我们进一步区分了通用法学硕士和专门为医学领域量身定制的法学硕士。最后,我们评估了在我们提出的语料库上经过进一步训练的模型,命名为 MMedLM(基于 InternLM)、MMedLM 2(基于 InternLM 2)和 MMed-Llama 3(基于 Llama 3)。通过对 MMedC 的自回归训练,这些模型通过特定领域的知识进行了独特的增强。
 
我们首先评估多语言多项选择题和回答任务的模型。如表 1 所示,医学专用大型语言模型 (LLM) 通常在英语中表现出较高的准确性分数,但它们在英语以外的语言中的性能显着下降。值得注意的是,经过微调的 PMC-LLaMA 的英语准确率得分为 47.53,尽管优于同时代的同类产品,但明显落后于 GPT 模型。后来,随着更高级基础模型的部署,开源模型开始弥合与 GPT 系列的差距,例如,Mistral、InternLM 2、Llama 3 在 MMedBench 的火车集上进行微调后,平均准确率分别为 60.73、58.59 和 62.79,超过了所有同规模的前辈。在我们专有的 MMedC 数据集上进行额外的自回归训练后,还观察到性能的增强。具体来说,我们的最终模型 MMed-Llama 3 与没有进一步训练 MMedC 的同类模型相比表现出显着的改进,例如,在全面微调评估下,67.75 (MMed-Llama 3) 与 62.79 (Llama 3)。类似的观察结果也适用于 PEFT 设置,即后来的 LLM 表现更好,并且在 MMedC 上进行训练带来了显着的收益。因此,MMed-Llama 3 指的是最具竞争力的开源模型,其 8B 参数接近 GPT-4 的 74.27 准确率。
 
表1 MMedBench上的多选择精度评估
全尺寸桌子
除了多项选择题 QA 任务外,我们的研究还扩展到检查各种法学硕士的基本原理能力。为了便于这种比较,我们采用了几个自动指标,即 BLEU9和胭脂10,根据 n-gram 评估句子相似性。此外,我们探索了 BERT 分数的使用11,该指标使用预训练的 BERT 模型来提取高级语义特征并采用余弦相似性进行语义评估。
 
我们提供详细的说明,提示模型概述其提供最终答案的分析过程,从而能够清楚地评估其推理能力。然后使用各种指标仔细评估性能。具体而言,ROUGE-1和BLEU-1分数如表2所示。此外,补充材料 E 中详细介绍了其他指标的结果,提供了模型在不同评估框架中的性能的全面视图。
 
表2 MMedB与ROUGE-1/BLEU-1的评价
全尺寸桌子
鉴于自动指标在评估自由文本生成方面的局限性,我们进一步采用相对的人工评级来对性能进行排名,并确定最可靠的自动指标,以便将来进行深入评估。
 
具体来说,从 MMedBench 的测试集中,我们随机选择了每种语言的 50 个测试用例,以及六个著名模型生成的结果:MMed-Llama 3(我们的)、Llama 3、InternLM 2、BioMistral、MEDITRON、GPT-3.5。样本序列和相应的模型输出是随机的,以防止偏差。评审小组由来自上海交通大学医学院和北京协和医学院的5名研究生组成,根据准确性、推理能力和内部知识对产出进行排名。为了便于准确评估,我还提供了手动验证的参考资料。排名是定量分配的,最高排名获得 6 分,最低排名获得 1 分,从而量化每个模型输出的质量。同时,我们利用 GPT-4 作为额外的评估器,为其分配评委的角色来对输出进行排名。有关 GPT-4 评估方法的更多详细信息,请参阅补充材料 A。
 
图4a通过相对评级对模型性能进行了比较分析。值得注意的是,MMed-Llama 3 在人类 (4.10) 和 GPT-4 (4.73) 评估中均获得最高分,与自动机器指标所示的卓越性能相一致。特别值得强调的是,MMed-Llama 3 在 GPT-4 评级中可以显着优于其他模型,以 0.89 分的评分分数超过第二好的模型 InternLM 2。有趣的是,GPT-3.5 的人类评分较低,为 2.37,这表明评估者的偏好可能会受到回答简洁性的影响。每种语言和模型的综合评级结果详见补充材料 E。
 
除了比较不同的法学硕士之外,我们的研究还深入研究了各种自动评估指标与人类偏好之间的相关性。这种相关性分析使我们能够确定用于基准测试目的的最有效的自动指标,从而有可能消除未来研究中对资源密集型人工评估的需求。我们采用肯德尔排名相关系数,通过自动指标和人工评估来衡量每个模型生成的基本原理的排名之间的一致性。结果如图4b所示,GPT-4的评估结果与人类判断的相关性最高,τ值为0.660。然而,值得注意的是,GPT-4 的评级虽然高度相关,但却是相对的,对于评估新引入的模型来说并不容易扩展。在绝对自动指标中,BERT Score 成为最可靠的指标,τ 值为 0.538。因此,我们主张使用 Bert Score 作为基准,在后续研究中评估 MMedBench 上新引入的 LLM 的基本原理能力。
 
图4:模型评级的对比分析。
图4
a 分数条表示不同指标下的排名分数。BLEU 分数评级表示根据 BLEU 分数排名计算的评级分数。人类评级是指人类提供的排名,而GPT-4评级是指GPT-4生成的排名。b 拟合线表示人工评级结果与不同自动指标之间的相关性。τ 是 Kendall 秩相关系数,而 k 是拟合线的斜率。源数据以源数据文件的形式提供。
 
全尺寸图像
公共英语基准评估
在这里,我们加入了额外的英文说明(来自 PMC-LLaMA3)转换为 MMed-Llama 3 微调,并在纯英语基准上与其他现有 LLM 进行比较。具体来说,有四种广泛使用的多项选择题基准,分别是MedQA、MedMCQA、PubMedQA和MMLU(Massive Multitask Language Understanding)-Medical2、12、14、15.有关这些基准的详细信息,请参阅部分。粗略地说,MedQA和MedMCQA是临床考试,主要评估诊断或治疗能力,PubMedQA侧重于生物医学学术问答,MMLU-Medical是MMLU的一个医学分支,旨在评估不同医学概念的基础知识。
 
如表3所示,MMed-Llama 3在英语基准测试中表现出最先进的性能,具体来说,我们在MedQA、MedMCQA和PubMedQA上分别获得了4.5%、4.3%和2.2%的性能提升。同样,在 MMLU 上,我们的模型可以在开源 LLM 中的大多数结果上取得最佳性能,甚至显着超过强大的 GPT-3.5,例如 72.59 vs. 67.69。
 
表3 各种英语多项选择题问答基准的选择准确率评价
全尺寸桌子
数据组成的消融研究
我们分析了数据集构建过程的影响,如表4所示。我们的消融研究是在完整的微调设置下对 MMedLM、MMedLM 2 和 MMed-Llama 3 进行的,利用 InternLM、InternLM 2 和 Llama 3 作为基础模型。总体而言,在三个模型上观察到的结果基本一致,因此,在下文中,我们将重点讨论MMed-Llama 3。
 
表4 MMedB消融研究
全尺寸桌子
在这里,我们区分 HQ-Data(高质量数据)和 US-Data(未指定源数据)。HQ-Data 包括来自书籍和网站的内容,这些内容经过了彻底的人工验证,而 US-Data 则来自从一般语料库中过滤医学相关内容。表 4 中详细介绍的结果表明,为模型配备全面的基本原理会导致多项选择准确率平均提高 4.06 分,从 58.72 提高到 62.79。然而,专门针对 MMedC 英语部分的进一步自回归训练不会产生整体准确性的提高。我们推测这是由于英语的过度拟合,导致英语表现较好,但在其他语言上的结果较差(有关更多详细信息,请查看补充材料 E)。在将自回归训练扩展到整个多语言医学语料库的同时,可以大大缓解该问题,显着提高最终结果。这不仅包括将选择准确率提高到 64.40,还包括在 BLEU-1 和 ROUGE-1 上的推理能力分别提高了 0.48 和 0.54 分。此外,自动收集的 US-Data 有助于将准确率从 64.40 进一步提高到 67.75,显着提高了 3.35 分。在基本原理能力方面也可以观察到性能提升,即 BLEU-1 为 0.29,ROUGE-1 为 0.16。
 
讨论
在本节中,我们将首先强调实验结果中的主要实证结论,然后是这项工作的潜在影响,最后是现有的局限性。
 
实验结果
从我们的实验结果中,我们可以得出以下关键结论。
 
首先,MMedC的自回归训练是有效的。如表1所示,所有MMedLM、MMedLM 2和MMed-Llama 3都比其原始基线模型(即InternLM、InternLM 2和Llama 3)表现出显着改进,这凸显了MMedC在提供有针对性的领域特定知识方面的有效性。此外,观察到的性能提升表明,现有法学硕士的预训练语料库在面对多语言医疗环境时表现出局限性。我们的研究结果强化了像 MMedC 这样的专业语料库来弥合这些差距的必要性。
 
其次,合并更多数据通常是有效的。在探索不同的数据源如何影响语言模型性能的结果时,我们的研究结果(如表 4 所示)表明,包含高质量的多语言数据 (HQ-Data) 可以显着提高性能。此外,我们观察到,尽管与更明确的医学相关来源相比,从通用语言语料库过滤的数据质量相对较低,但合并也是有效的。这一改进强调了在 MMedC 中集成不同数据类型的价值。
 
第三,纳入微调的基本原理是有效的。在MMedBench(训练集)上进行微调时,我们观察到,将基本原理数据与多项选择预测相结合,可以提高特定任务的性能。如表4所示,在监督微调阶段将正确答案与其基本原理相结合,不仅使LLM能够输出基本原理句子,而且在MMedBench(测试集)上,InternLM的多项选择准确率提高了2.33%,InternLM 2为2.42%,Llama 3为4.07%。这表明这两个任务具有很强的相关性,并强化了联合训练多选预测任务和基本原理任务的重要性。
 
第四,强大的基础法学硕士可以提高最终结果。在 MMedBench 上,我们还注意到更强的 LLM 骨干(通常稍后发布)通常会提高多语言医疗 QA 的最终结果。随着更高级的LLM的发布,他们的预训练语料库得到了显著的扩展,逐渐涵盖了更多的语言。尽管非英语语言只占总数的一小部分,但整个语料库的庞大数量使模型在训练过程中能够遇到大量的多语言文本,从而显着增强了它们的多语言能力,正如 Llama 2、Mistral 和 Llama 3 之间的比较所示,后面的模型都比前一个好得多。这种一般多语言能力的增强也可以提高适应后在医学领域的表现(MMedLM vs. MMedLM 2 vs. MMed-Llama 3)。这一观察表明,我们应该更多地关注建立医学开源数据集,以便未来的工作能够更好地利用通用法学硕士的快速改进。
 
研究影响
此外,通过启动多语言医学法学硕士的开发,我们的工作可以促进以下关键研究方向:
 
推动通用医疗人工智能(GMAI)发展。GMAI的16致力于开发一种多模态 AI 模型,该模型可直接应用于广泛的医疗保健场景,其中 LLM 通常用作人机界面17,18,19.用多语言的LLM取代以英语为中心的LLM可以充分利用全球数据源,从而扩展可用的多模态训练数据,并提高其他模态的表示质量。
 
改进检索增强生成。幻觉被认为是现有法学硕士的一个主要问题,尤其是在医学领域。一种潜在的解决方案是开发检索增强架构20,21,22.关键动机是,通过从额外的知识库中检索事实,法学硕士生成的输出可以避免大多数致命的事实错误。然而,到目前为止,大部分工作都是用英语进行的,这极大地限制了利用其他语言医学知识的检索增强方法。开发多语言法学硕士可以有利于检索过程,极大地丰富潜在的可用知识库。
 
临床影响
除了研究影响之外,在临床实践中,开源多语言医学法学硕士还可以满足以下需求。
 
缓解语言障碍。在许多医疗保健系统中,患者和医疗保健提供者之间的语言障碍可能会阻碍有效的沟通,导致误解、误诊和护理不足,导致大多数人无法获得高质量的医疗资源。多语言医学法学硕士可以促进实时翻译和口译,确保患者能够有效地传达他们的症状并理解他们的诊断和治疗方案。
 
降低文化和法律敏感性。还可以培训多语言医学法学硕士,以识别和解决不同国家在医疗保健互动中的文化或法律细微差别和敏感性。了解文化背景和法律差异可以显着增强对医学法学硕士的信任,从而带来更好的健康结果。
 
帮助医学教育。这些模型还可以针对教育进行定制,特别是在医学教育工作者或资源短缺的地区。通过提供多种语言的教育材料和模拟,医学多语言法学硕士可以帮助标准化医疗培训并确保全球一致的护理质量。
 
潜在限制
虽然我们的工作主要集中在构建多语言医学语料库和增强跨多种语言的医学 LLM 的能力,但我们遇到了某些限制。
 
首先,鉴于我们很大一部分数据是通过网络爬虫获取的,语料库不可避免地可能包含针对某些弱势群体的固有偏见。正如之前的研究所强调的那样,这是医学语言模型 (LLM) 开发中的一个关键挑战23.未来,我们将探索对潜在偏差进行更严格、更全面的安全控制。
 
其次,在可解释性方面,尽管我们努力通过额外的基本原理功能来增强模型,以帮助用户理解最终决策。在开发 LLM 架构(例如用于卷积块或 MLP 的架构)的可解释性方面,它仍然没有得到充分探索24.
 
第三,该数据集中的语言并未涵盖所有世界人口。未来,我们预计将扩展到包括更多语言,例如德语和阿拉伯语。具体来说,常见的爬取数据集25包含超过 167 种语言,通过我们的过滤管道,我们可以通过定义特定的过滤种子词来有效地提取与医学相关的术语。此外,还有多种语言的医学文献来支持当地的医学教育,将这些资源整合到我们的方法中可以进一步丰富培训语料库。此外,随着通用法学硕士变得越来越强大,尽管它们可能无法准确回答各种语言的医学问题,但它们可以有效地将参考句子重写为替代格式或将其翻译成其他语言,这些任务相对简单。此功能可以作为增强策略,以增强资源极低语言的数据。
 
最后,考虑到计算成本,我们最终的模型是8B规模的,未来,我们将把训练进度切换到更大的架构上,进行检索增强,这样可能会取得更好的结果,同时缓解幻觉问题。
 
方法
在这一部分中,我们将详细介绍我们的方法。具体来说,在本节中,我们介绍了 MMedC 的构建管道。在本节中,我们描述了自回归训练过程。在本节中,我们讨论了新的多语言医学基准 MMedBench,包括其策划程序、评估设置和指标。
 
大型多语言医学语料库
我们在此开发了一个新的大规模多语言医学语料库 MMedC,以帮助丰富跨不同语言的特定领域的医学知识。我们详细探索了四个主要来源,例如,从通用语言语料库、医学教科书、开源医学网站和现有的小规模多语言医学语料库中过滤医学相关内容。因此,MMedC 包含超过 25B 代币,涵盖 6 种主要语言,例如英语、中文、日语、法语、俄语和西班牙语。接下来,我们将分别介绍四个来源的数据收集过程。
 
过滤与医疗相关的内容
获取医疗相关内容的第一种方法是使用启发式算法进行过滤。在更广泛的自然语言处理领域,一般 NLP 社区已经积累了广泛的语料库,例如 CommonCrawl,它每月捕获数十亿个网页,并且已经运行多年。尽管与医学相关的内容仅占这个庞大数据集的一小部分,但其庞大的数量为通过应用复杂的自动过滤技术创建大规模的、特定于医学的语料库提供了宝贵的机会。
 
我们的方法从 CulturaX 数据集开始26,一个精心策划的多语言版本的 CommonCrawl,拥有 6.3 万亿个代币。我们首先引入一个基于规则的过滤管道来筛选此数据集以查找医疗内容。这个过程涉及每种语言仔细选择 200 个医学相关术语,涵盖医学、药学和医学生物学等领域。鉴于论文中的空间限制,我们将在 GitHub 存储库中列出所有 1200 个术语。对于使用空格进行单词分隔的句子,我们的方法包括分词,然后进行关键字匹配。相反,对于没有明确词分界的句子,我们采用直接关键字匹配。利用匹配结果,我们建立了两个主要指标:
 
算法 1
确定与医疗相关的文本样本
 
输入:文本 T,关键字集 K,语言类型 Lang
 
输出:对或错
 
定义 TC作为 M、K、C 和 T 的阈值D用于 DENS
 
如果 Lang = “空格分隔”,则 ▹ 对于空格分隔语言,首先将文本拆分为单词
 
根据空格将 T 分割成单词
 
结束如果
 
初始化 \({K}_{U}={{\emptyset}}\)
 
初始化关键字总长度 L ← 0
 
对于 T 中的每个单词 t do
 
如果 t ∈ K,则
 
将 L 递增 len(t)
 
如果 t ∉ KU 然后
 
将 t 添加到 KU
 
结束如果
 
结束如果
 
结束
 
计算 MKC 和 DENS
 
如果 MKC > T C 和 DENS > TD 然后
 
返回True ▹ 文本被视为与医疗相关
 
 
返回错误 ▹ 文本不被视为与医疗相关
 
结束如果
 
医学关键字计数量化文本中唯一医学关键字的数量。设 K 是代表感兴趣的医学术语的先验关键字的集合,并设 T 表示正在分析的整个文本语料库。文本中出现的唯一关键字集可以表述为 KU = {k∣k ∈ T ∧ k ∈ K}。然后将医学关键字计数 (MKC) 定义为 MKC = ∣KU∣,其中 ∣ ⋅ ∣ 表示集合的基数。
 
关键字密度衡量医学关键字所占的文本相对于总文本长度的比例。该指标有助于识别尽管篇幅很长,但只是偶然包含医学术语的文本。令 len(T) 表示文本 T 中的字符总数,occ(t, T) 表示单词 t 在 T 中的出现次数。关键字密度表示为 D,可以表述为:
 
$$D=\frac{{\sum }_{k\in K}len(k)\cdot occ(k,T)}{len(T)}$$ (1)
使用这两个指标,我们只需设置一个阈值条来过滤每个句子。为了控制过滤质量,我们随机抽样每种语言 100 个句子,平均手动检查 98 个句子与医学相关。最终的阈值和过滤比率在补充材料 C 中详细说明。
 
医学教科书
除了过滤通用语言语料库外,我们还收集了数十种医学教科书,这些教科书代表了丰富的广泛医学知识库,并通过严格的出版流程来确保内容质量。我们按照 PMC-LLaMA 中概述的方法策划了超过 20,000 本书的藏书3. 为了从书籍中提取文本,我们采用了光学字符识别(OCR)模型,具体来说,我们使用了 PaddleOCR 工具,因为它能够熟练地处理多种语言。OCR 过程生成一个列表,详细说明每个文本框的坐标和内容,然后按从左到右和从上到下的顺序进行组织。此外,为了确保专注于医学内容,我们排除了非必要的页面,例如封面、目录和尾声,并通过页码来识别它们以进行删除。从数量上讲,我们最终收集了 4B 个英文 token、1.1B 个中文 token、0.4B 个俄文 token 和 0.3B 个法文 token。
 
医疗网站
考虑到基于过滤的数据是基于CommonCrawl的,随机划伤且无法追踪,为了避免遗漏一些重要的医学知识网站,我们进一步抓取了一些与医学相关的网站作为补偿。我们专注于三种类型的网站。首先,我们针对医学百科全书,这些百科全书提供了有关疾病和药物的详细信息。虽然这些数据质量非常出色,但数量往往有限,并且受到严格的访问控制。其次,我们从医学咨询平台和医学科普文章中获取内容。这些来源虽然技术性较差,但提供了丰富的医学常识知识。最后,我们扩展了数据收集范围,将医学新闻网站纳入其中,这使我们能够收集大量不受限制的数据,并将及时的信息纳入我们的模型中。这种策略增强了模型对当前医疗事件和趋势的理解和响应能力。我们从这些不同的网站收集数据,编制了一个全面而多样化的医学语料库,包括深入的专业医学知识以及广泛的一般医学信息和最新的行业见解。因此,我们获得了 0.1B 的日语代币、0.05B 的西班牙语代币和 0.1M 的法语代币。
 
现有小规模多语言医学语料库
除了上述新收集的数据外,我们还利用了许多现有的开源语料库。具体来说,我们使用了以下三个数据集:维基百科27, 百度百客28和 UFAL 医学语料库29.对于维基百科和百度百科,我们采用前面提到的相同的过滤方法来提取医学领域语料库,而对于 UFAL(专为翻译任务设计的医学语料库),我们直接使用它。
 
MMedC 上的自回归训练
构建 MMedC 后,我们以自回归的方式进一步在其上预训练现有的 LLM。我们采用 GPT 中使用的下一个令牌预测的损失1.具体来说,我们将医学文本视为一系列标记,表示为 X = {x1, x2, ..., xN},其中每个 x我是一个文本标记,N 表示序列的总长度。对于令牌 x我要预测的优化目标是:
 
$$L(\phi )=-\sum \log (\phi ({x}_{i}|{x}_{ < i}))$$ (2)
全面的多语言医疗基准
除了用于训练的多语言数据集外,我们还收集了涵盖 6 种主要语言(即 MMedBench)的综合多语言医学基准,以对模型在不同语言的医疗领域的表现进行全面评估。具体来说,我们首先收集每种语言现有的医学问答(QA)基准,并使用 GPT-4 扩展这些多选择 QA 并提供相应的解释,然后进行严格的人工验证以确保内容的正确性。
 
多语言医疗QA数据集
评估大型语言模型 (LLM) 的性能传统上依赖于多项选择题的使用。该评估框架向模型呈现问题及其相应的选项,然后模型有望识别正确答案的索引。准确性是该方法中的主要定量指标,提供直接、客观的绩效衡量标准。尽管其有效性,但流行的医学多项选择 QA 基准完全是单一语言的,因此无法充分评估法学硕士跨不同语言的能力。为了解决这一缺陷并营造更具包容性的评估环境,我们的方法涉及聚合来自多种语言的各种医学多项选择 QA 数据集。该倡议旨在编制一个反映医疗领域多语言现实的综合基准。考虑以下基准:
 
医疗质量保证30是基于 USMLE 考试的医学多项选择题(每个问题有四个答案选项)的集合。它包含三种语言的数据:英语、简体中文和繁体中文。对于我们的评估,我们专门使用英文和简体中文部分。数据按官方指南进行分区。
 
IgakuQA31是一个日本医学多项选择题数据集,来自日本近五年(2018-2022)的医学执照考试。由于没有官方的数据划分,我们随机划分数据,得到 1,590 个训练样本、199 个验证样本和 199 个测试样本。
 
法语MedMCQA32是一个法语医学多项选择题数据集,它来自法语医学药学专业文凭的真实考试。数据根据官方发布进行划分。
 
RuMedDaNet13是一个俄罗斯医学判断问题数据集,我们将其处理成二元选择问题格式。数据按照官方方式划分。
 
主管-QA33是一个西班牙语多项选择题数据集。问题来自考试,以获得西班牙医疗保健系统的专业职位。数据按照官方方式划分。
 
结果,我们总共收集了 53566 对 QA 对,对于那些没有官方定义的训练测试集,我们分别将它们分成 8:1:1 进行训练、验证和测试,结果有 45048 对用于训练,8518 对用于测试。
 
基本原理生成
虽然多项选择题解答的准确性是一个简单而准确的指标,但它未能评估法学硕士的推理和长句生成能力,而这对于临床使用至关重要。因此,我们进一步补充了每个问题,并提供了选择正确选项的理由。在评估阶段,我们提示模型阐明其选择背后的基本原理,从而深入了解模型的推理能力,如图所示。5.
 
图 5:MMedBench 构建的管道。
图5
首先,从5个QA数据集中收集来自不同语言的多选QA对。然后在 GPT4 的帮助下生成相应的基本原理。测试仪的基本原理由人类进一步检查以确保其质量。
 
全尺寸图像
详细来说,鉴于 GPT-4 通过在思维链 (CoT) 实验中提供详细解释来超越人类专家的能力34,我们利用 GPT-4 为我们的数据集生成基本原理。为了保证这些解释的质量,我们随后进行了人工验证。具体来说,我们将问题、选项和正确选择输入 GPT-4,指示它生成选择特定选项的详细理由。说明如下,其中“{language}”将替换为某种语言名称,例如中文或法语:
 
你是一名{语言}医生。用 100 个单词分析以下问题选择此特定选项的原因 {language}。
 
在 GPT-4 生成基本原理后,我们进行了人工审查以评估其质量。我们的评估标准有两个:首先,GPT-4 提供的解释必须与问题的既定正确答案一致;其次,需要阐明支撑答案的逻辑,而不仅仅是复制它。请注意,考虑到人工检查的成本,这只会在我们的测试集的一部分上执行。具体来说,我们从每种语言的前一个测试拆分中随机选择了 200 个样本,以形成新的基本原理拆分。然后我们打乱并分配给三个注释者进行手动验证。注释者的任务是根据上述标准将每个理由分类为合格或不合格。值得注意的是,我们观察到 GPT-4 生成的 94.7% 的基本原理符合我们的标准,这凸显了解释的高质量。在最终评估阶段,基本原理相似性的计算专门应用于这些经过人工验证的通过样本。最后,我们获得 1136 个人工检查样本进行基本原理评估,并用自动生成的基本原理句子补偿前一个拆分的 45048 个训练 QA 对。给定一个语言模型,它可以使用我们的训练集进一步微调,然后在基本原理和选择测试集上进行评估或直接评估。
 
主题分类
随后,我们探索样本的主题分布。为此,我们使用 GPT-4 对测试集中的主题进行分类。提供给 GPT-4 的主题分类说明概述如下,其中“{language}”将替换为某个语言名称。
 
您是一名 {language} 医生,请从 {medical_subjects_string} 中选择一个与以下问题最相关的主题。
 
有时,GPT-4 可能会产生模棱两可的分类结果,例如与预定义的医学主题不一致的结果。在这些情况下,我们会提示 GPT-4 尝试分类最多四次。如果它无法产生符合我们标准的分类,我们将样本的类别分配为“无”。鉴于此类事件很少发生,它们对总体统计数据的影响很小。
 
评估设置
为了全面评估模型的性能,我们在三种不同的评估设置中对其进行了测试:零样本、参数高效微调(PEFT)和完全微调。对于零样本设置,我们直接在适当的指导下测试现成的 LLM,而无需进一步接触 MMedBench 的训练部分。除了零样本之外,为了更好地评估模型之间的性能差异,我们还尝试对开源模型进行微调,然后进行测试。主要使用的微调方法有两种:参数高效微调 (PEFT) 和完全微调。在前一种情况下,只有一小部分模型参数是可训练的,代表了低计算资源可用场景中的性能。我们采用最具代表性的PEFT方法LoRA35这里。在后一种情况下,所有参数都将被微调,这是一种更传统的做法。
 
接下来,我们将介绍我们工作中考虑的基线 LLM 进行比较:
 
GPT-41,OpenAI 开发的突破性多语言大型语言模型,是迄今为止最复杂的法学硕士之一。由于数据和模型细节的保密性,其详细的模型规模尚不确定。虽然GPT-4没有强调自己是多语言LLM,但它的多语言能力仍然更胜一筹。鉴于它只能通过 API 访问,我们以零样本方式和适当的说明对其进行评估(有关更多详细信息,请查看补充材料 A)。
 
GPT-4(5-shot,CoT)用于上下文学习36和思维链37进一步提高 GPT-4 的性能,这是目前可实现的最高性能。为了实现,我们遵循 MedPrompt 中使用的提示14.请注意,尽管这种方法可以增强不同 LLM 的性能,但它会占用更多代币并导致额外成本。
 
GPT-3.538也是由 OpenAI 开发的。与 GPT-4 类似,它的详细模型大小或训练数据组成是未知的,并且从不声称它是多语言还是单语 LLM,但它在多语言输入方面也表现良好。作为 GPT-4 的前身,它继续在日常应用程序中表现出强大的性能,并继续得到广泛使用。我们使用与 GPT-4 相同的基于 API 的方法评估 GPT-3.5。
 
Flan-PaLM15和 MedPaLM 22,是谷歌开发的两个近源多语言生物医学法学硕士。他们在医学英语多项选择题解答方面表现出色。但是,由于它既不提供模型权重,也不提供访问 API 功能,因此我们只能在广泛使用的英文基准测试上与它们进行比较。Flan-PaLM 的一个著名变体是 MedPaLM15,而在原始论文中,没有报道MedPaLM的多项选择题回答准确率。因此,这里我们只能与 Flan-PaLM 进行比较。
 
双子座-1.0 专业版39是谷歌公司最新开发的通用多模态基础模型。虽然它针对的是多模态场景,但正如原始论文中报道的那样,它的语言能力甚至超过了谷歌以前的 LLM PaLM 212.与GPT系列类似,其详细规模以及是专门针对多语言还是单语场景,并未公布。但是,在我们的测试中,它对多语言输入的响应良好。
 
绽放7,一个早期的开源、多语言 LLM 家族,接受了各种语言语料库的预训练。我们采用微调评估方法为我们的研究选择 7B 参数变体。
 
Med羊驼4是一个专门的开源单语医学法学硕士,使用超过 160,000 个英语医学条目的数据集在 LLaMA 上进一步微调。
 
聊天医生5是一款基于 LLaMA 的单语医学法学硕士,并进一步微调,利用了 100,000 个真实世界的英语医患对话,将其标记为独特的医学法学硕士。我们采用 7B 参数模型,应用微调评估框架。
 
PMC-LLaMA3展示了另一个开源的单语医学专用法学硕士,专门针对英语医学文献(包括论文和书籍)进行了预训练。我们利用 7B 参数版本进行评估。
 
骆驼 2 和骆驼 340,Llama 系列是 Meta 开发的一系列开源 LLM。Llama 2 是该系列的上一代 LLM,Llama 3 是最新的。Llama 模型被公认为同一时间范围内最强大的开源单语英语法学硕士之一。虽然这些模型的词汇主要是针对英语进行训练的,但也包括其他语言的标记。鉴于其大量的预训练数据(可能包括来自其他语言的样本),Llama 模型还可以在多语言场景中表现出有希望的性能。我们在评估过程中使用了 Llama 2 和 Llama 3 的 7B 参数模型。
 
米斯特拉尔 7B41,于 2023 年 10 月发布,是一款创新的开源单语法学硕士,声称在所有评估基准测试中都优于 Llama 2 13B。我们对该模型采用微调评估方法。
 
InternLM 和 InternLM 28,由上海人工智能实验室开发,是领先的开源多语言法学硕士之一。InternLM 于 2023 年 7 月发布,InternLM 2 于 2024 年 2 月发布。对于这两种模型,我们选择了 7B 参数变体并实施了微调评估策略。
 
梅迪特隆6,于 2023 年 11 月发布,是一款开源单语生物医学 LLM,利用额外的 45B 英文代币进一步预训练通用 LLM Llama 2。它有两个缩放版本,即 7B 和 70B,为了与其他版本进行公平比较,我们主要采用 7B 版本。
 
生物米斯特拉尔42,于 2024 年 2 月发布,是一款基于 Mistral 的开源多语言生物医学 LLM。它与我们的同时进行,也针对多语言生物医学领域。我们将其作为强基线进行比较。
 
杰玛43,于 2024 年 3 月发布,是由 Google DeepMind 开发的开源单语 LLM,面向英文。它在语言理解、推理和安全方面的学术基准中表现出强大的表现。它有两个版本,即 2B 和 7B 音阶。同样,为了公平比较,我们采用此处的 7B 版本。
 
我们在补充材料 B 中总结了每个模型的更详细信息。
 
指标和人工评分
在这一部分中,我们将介绍我们工作中使用的评估指标和人工评级标准。为了评估法学硕士的性能,我们采用了两个指标:准确性和基本原理相似性。测量准确性非常简单,因为法学硕士可以按照特定模板生成输出。然而,评估基本原理相似性提出了更复杂的挑战,这在 NLP 领域很常见。最初,我们应用了三种经典的文本相似性方法,即 BLEU9和胭脂10和 Bert 分数11.
 
BLEU
量化模型输出与参考输出之间的匹配,重点关注 n 克的精度。BLEU 计算如下:
 
$$\,{{\mbox{BLEU}}}={{\mbox{BP}}}\,\cdot \exp \left({\sum}_{n=1}^{N}{w}_{n}\log{P}_{n}\right)$$ (3)
其中 Pn是 n-gram 的精度,wn是每个 n-gram 大小的重量,BP 是简洁惩罚。在大多数应用中,N 通常等于 4。对于 BLEU − n,评估仅关注该特定长度的 n-gram,通过将 w 设置为n= 1 对于特定的 n,并将所有其他权重设置为 0。在标准 BLEU 计算中,使用 BLEU-1 到 BLEU-4 分数的加权平均值,每个组成部分通常具有相等的权重(w1 = w2 = w3 = w4= 0.25)。
 
胭脂
是一个同样关注 n-gram 的指标,但在计算中独特地结合了召回率和精度。ROUGE 的计算方法如下:
 
$$\,{{\mbox{胭脂}}}\,=\frac{2\times {P}_{n}\times {R}_{n}}{{P}_{n}+{R}_{n}}$$ (4)
其中 P 和 R 分别代表精度和召回率。请注意,ROUGE-N 强调 n-gram 的精度和召回率,而 ROUGE-L 根据最长的公共子序列 (LCS) 计算精度和召回率。
 
BERT 分数
利用预训练 BERT 的上下文嵌入来捕获高级语义特征,通过余弦相似度计算参考文本和候选文本之间的相似性。召回率计算如下:
 
$$R=\frac{{\sum }_{{x}_{i}\in x}{{{\mathrm{idf}}}}\,\left({x}_{i}\right){\max }_{{\hat{x}}_{j} \in \hat{x}}{{\bf{x}}}}}_{i}^{\top }{\hat{{{\bf{x}}}}}}_{j}}{{\sum }_{{x}_{i}\in x}{{{\mathrm{idf}}}}\,\left({x}_{{{\rm{i}}}}\right)}$$ (5)
其中 IDF 表示反向文档频率,增强了指标对稀有但重要单词的敏感性。这里,x我和 \({\hat{{{{\bf{x}}}}}}_{j}\) 分别表示候选文本中第 i个标记和引用文本中第 j个标记的嵌入。以类似方式计算精度,随后推导出 F1 分数。在本文中,我们采用预训练的多语言BERT模型来提取特征,而无需进行基线重新缩放。
 
相对评分分数
旨在根据相对比较对输出进行排名。详细地,我们选择了 6 个代表性模型,并为每种语言采样了 50 个案例。在人工评分中,对于每种情况,每个模型生成的问题、选项、正确答案和基本原理以及参考基本原理都会呈现给注释者。要求注释者根据以下三个评估标准对模型生成的基本原理进行排名:
 
准确性。模型正确选择答案的能力。
 
推理能力。模型在做出选择时展示逻辑推理的能力。模型应该不仅仅是重复问题或选项,而是用合理的推理来支持它的选择。
 
整合内部知识。该模型需要有效地融合和利用其内部知识库,提供相关且有说服力的事实证据来支持其答案。
 
考虑到 GPT-4 在许多方面都实现了接近人类的性能,我们使用 GPT-4 以相同的方式对模型进行排名,并按照以下方式仔细设置指令44.同样,对于 BLEU 分数,我们也可以通过比较绝对指标来对模型进行排名。
 
然后,对于所有排名结果,即人类评分、BLEU 分数评分和 GPT-4 评分,分数与排名水平相反进行定量分配,例如,排名靠前的排名恢复 6 分,排名靠后的排名恢复 1 分,从而相对量化每个模型的输出质量。
 
英语基准评估
在这里,我们描述了如何将我们的模型在英语上的性能与其他现有模型进行比较。
 
在评估大型语言模型在医学领域的能力时,我们利用了 4 个广泛认可的多项选择题解答基准,具体如下:
 
医疗质量保证30与我们在 MMedBench 中介绍的相同。它是评估模特医疗能力的广泛使用且高度可信的基准。因此,我们在英语评估中重复使用它。
 
考研QA45是一个基于PubMed摘要的英文问答医学数据集。PubMedQA 的任务是用是/否/也许来回答研究问题,这也可以被视为一个封闭领域的多项选择题。正式地,它分为三个子集:1K 手动标记对 (PQA-L)、61.2K 未标记对 (PQA-U) 和 211.3K 人工生成对 (PQA-A)。继往日现有作品之后46,我们还采用PQA-L作为测试集,以便我们的结果可以直接与其他测试集进行比较。
 
医学 MCQA47是大型英语选择题答题样本。MedMCQA拥有超过194k个高质量的AIIMS和NEETPG入学考试,多项选择题涵盖2.4k医疗保健主题和21个医学科目,平均标记长度为12.77,主题多样性高。官方列车拆分包含 182,822 个问题,测试拆分包含 4183 个问题。每个问题有 4 个选择。我们采用官方测试拆分来评估我们的模型。
 
MMLU-医学48是一道涵盖57个科目的英语综合大型试题,旨在评估语言模型在不同领域的能力。继 MedPALM 2 之后2,采用解剖学(An)、临床知识(CK)、大学生物学(CB)、大学医学(CM)、专业医学(PM)和医学遗传学(MG)6个与医学相关的科目,共1,089个问题。我们采用 MMLU 的官方拆分进行测试。
 
在英语中,LLM 可能会使用监督数据的混合,在预训练后进一步将模型与人类语义指令对齐,通常称为指令调整49,50,51.这种设置类似于微调,但不同之处在于,指令调优通常涉及设计语义指令来聚合大量任务,而不仅仅是考虑要测试的几个下游任务。不同的 LLM 可能使用不同的数据集集合进行指令调整。因此,在英语基准测试中,很难控制数据,就像我们在 MMedBench 的微调设置中执行的那样,相反,模型直接在未公开的测试集上进行比较,无论它们使用什么调整数据。在我们的例子中,为了能够与现有模型进行公平的比较,我们合并了一个现成的英语指令微调数据集(来自 PMC-LLaMA3)转换为MMed-Llama 3微调。
 
实现细节
在本节中,我们将深入探讨自回归训练和微调的细节。我们使用 PyTorch 框架和 Transformers python 包进行所有实验。
 
自动回归训练
在 MMedC 的进一步自回归训练期间,我们的优化目标与自回归生成任务的目标一致。对于数据处理,我们将文本分割成块,每个块包含 2048 个标记,重叠边距为 512 个标记。在整个训练过程中,我们保持 2048 个令牌的最大上下文长度。由于模型的参数数量较多,无法拟合单个 GPU,因此我们采用全分片数据并行 (FSDP) 策略将模型分布在多个 GPU 上。此外,我们利用 BF16 数据类型和梯度检查点技术来优化内存使用。对于 InternLM,我们建立了 512 的全局批量大小和 2e-5 的学习率。对于 BLOOM,我们将全局批量大小设置为 512,学习率为 8e-6。我们在八个 A100 GPU 上预训练了这两个模型,调整梯度累积步骤以维持如此大的全局批量大小。我们训练 7B 模型进行 20k 迭代,这大约需要 20 天。
 
微调
在微调过程中,我们的优化目标与自回归训练阶段保持一致。我们将最大序列长度设置为 2048,填充每个批次以匹配该批次中最长的序列。对于全模型微调,我们利用了全分片数据并行(FSDP)、BF16数据类型和梯度检查点技术。我们将全局批量大小设置为 128,学习率设置为 1e-6。对于 LoRA,我们使用默认的推荐排名 16,训练设置与完全微调类似。
[返回]
上一篇:通过大规模临床工具学习为语言代理提供风险预测能力
下一篇:人脑中的高级视觉表示与大型语言模型保持一致