LLM数据集调查从自回归模型到AI聊天机器人 |
来源:一起赢论文网 日期:2025-04-13 浏览数:49 【 字体: 大 中 小 大 中 小 大 中 小 】 |
LLM数据集调查从自回归模型到AI聊天机器人 自 OpenAI 开放对 ChatGPT 的访问以来,大型语言模型 (LLM) 成为一个越来越受欢迎的话题,吸引了来自丰富领域的研究人员的关注。然而,鉴于大多数 LLM 是由行业生产的,并且培训细节通常未透露,公共研究人员在开发 LLM 时会遇到一些问题。由于数据集是 LLM 的重要设置,因此本文对预训练和微调过程中使用的训练数据集进行了整体调查。本文首先总结了最先进的 LLM 中使用的 16 个预训练数据集和 16 个微调数据集。其次,根据预训练和微调过程的属性,它从质量、数量和与模型的关系对预训练数据集进行了评论,并从质量、数量和关注点对微调数据集进行了评论。然后,本研究批判性地弄清楚了当前 LLM 数据集中存在的问题和研究趋势。该研究帮助公共研究人员通过视觉案例训练和调查 LLM,并为研究界提供有关数据开发的有用评论。据我们所知,本文是第一篇总结和讨论自回归 LLM 和聊天 LLM 中使用的数据集的文章。该调查为研究人员和 LLM 开发人员在构建模型时提供见解和建议,并通过从数据的角度指出 LLM 研究存在的问题,为 LLM 研究做出贡献。 |
[返回] |