| 量化大型语言模型在科学论文中的使用SCI |
| 来源:一起赢论文网 日期:2025-09-19 浏览数:492 【 字体: 大 中 小 大 中 小 大 中 小 】 |
|
量化大型语言模型在科学论文中的使用SCI ChatGPT 于 2022 年底发布,恰逢越来越多的报告描述了科学手稿中存在大型语言模型 (LLM) 生成的内容 1,2和同行评审报告3.虽然有些实例可以通过显式文本标记来识别,例如包含界面提示,例如“重新生成响应” 4,5或通用免责声明,例如“作为人工智能 (AI) 语言模型”6——许多其他的都太微妙了,无法在个人层面上识别。然而,从鸟瞰的角度来看,更广泛的趋势可能会变得明显。之前的工作还引发了对现有检测工具的公平性和有效性的担忧,特别是它们对非英语母语作者的不同影响7.尽管模型级分类器不断改进,但在单个级别可靠地识别 LLM 生成或 LLM 修改的内容仍然是一项复杂且未解决的任务8.
然而,从总体上检查法学硕士修改的内容提供了一个了解学术交流更广泛转变的机会。梁等人。9引入一种方法框架来估计语料库中 LLM 修改文本的比例,而不依赖于单个实例的识别。按人群水平方法旨在超越基于案例的分类,从而能够深入了解生成模型使用的流行和分布。当应用于学术文本时,这些方法有助于识别可能影响法学硕士参与的系统性条件,同时还揭示了在较小规模上可能不明显的语言和风格趋势。
衡量法学硕士在科学出版中的使用程度具有紧迫的应用。对准确性、抄袭、匿名性、所有权和科学独立性的担忧促使一些著名的科学机构对在学术出版物中使用法学硕士修改的内容采取立场。2023 年国际机器学习会议 (ICML) 禁止在提交的稿件中包含 LLM 生成的内容,除非它构成实验方法的一部分10.《科学》杂志引入了编辑政策,禁止在提交或发表的材料中使用法学硕士生成的文本、图像或图形11.尽管有这样的政策,但目前人们对法学硕士在科学写作实践中的采用程度知之甚少。开发可扩展的、方法论上强大的工具来监控法学硕士的使用,可以为机构决策提供信息并支持循证政策。
除了规范问题之外,了解法学硕士使用的分布还可以深入了解塑造科学写作实践的结构性压力。例如,对生成工具的依赖可能反映了语言边缘化、资源限制或大量出版的需求。确定法学硕士的使用地点和方式有助于阐明采用法学硕士的社会和制度背景。
在这项研究中,我们对科学预印本和期刊文章中的 LLM 修改内容进行了大规模实证分析。建立在先前工作中提出的分布式 GPT 量化框架的基础上9,我们估计了法学硕士对学术文本进行大幅修改的比例。出于本分析的目的,“LLM 修改”是指在基本的拼写和语法更正之外,ChatGPT 对文本内容进行了实质性更改。例如,我们的分析中捕获的修改可能包括对现有写作的总结或基于结构大纲的散文生成。
该框架的一个关键特征是其群体级推理,无需对单个文档进行分类即可实现语料库范围的量化。正如在之前的论文中所验证的那样,该框架的计算效率提高了几个数量级,因此具有可扩展性,在大量的时间分布偏移和其他现实分布偏移下,与同类框架相比,可以产生更准确的估计和更好的概括。
我们将这个框架应用于摘要和正文(图1 和补充图。1) 跨多个学科的学术论文,包括 arXiv、bioRxiv 和 Nature 投资组合中的 15 种期刊,例如 Nature、Nature Biomedical Engineering、Nature Human Behaviour 和 Nature Communications。我们的分析涵盖了 2020 年 1 月至 2024 年 9 月期间发表的总共 1,121,912 篇论文,其中包括 arXiv 的 861,253 篇论文、bioRxiv 的 205,094 篇论文和 Nature 组合期刊的 55,565 篇论文。arXiv的论文跨越多个学科,包括计算机科学、电气工程和系统科学、数学、物理学和统计学。这些数据集使我们能够量化法学硕士修改的学术写作随着时间的推移和广泛学术领域的流行程度。
图 1:随着时间的推移,研究论文场所中 LLM 修改句子的估计比例。
图1
该图显示了来自各种学术写作场所的摘要中估计已被 LLM 大幅修改的句子的分数 (α)。垂直棕色虚线标志着 ChatGPT 的发布日期(2022 年 11 月 30 日)。该分析包括 arXiv 中的五个领域(计算机科学、电气工程和系统科学、数学、物理学和统计学)、来自 bioRxiv 的文章以及来自 Nature 组合中 15 种期刊的组合数据集。这些估计基于分布式 GPT 量化框架,该框架提供人口水平的估计,而不是单个文档分析。每个时间点都是独立估计的,不应用时间平滑或连续性假设。数据以基于 1,000 次引导迭代± 95% CI 的平均值表示。对于计算机科学 (arXiv),n = 每月 2,000 篇独立论文摘要。对于电气工程和系统科学 (arXiv),独立论文摘要的每月样本量各不相同(平均值 708;最小值 388;最大值 1,041)。对于统计学 (arXiv),独立论文摘要的每月样本量各不相同(平均值 337;最小值 203;最大值 513)。对于 bioRxiv,n = 每月 2,000 篇独立论文摘要。 对于物理学 (arXiv),n = 每月 2,000 篇独立论文摘要。对于《自然》杂志的作品集,独立论文摘要的每月样本量各不相同(平均值 1,039;最小样本量为 601;最大样本量为 1,537)。对于数学(arXiv),独立论文摘要的每月样本量各不相同(平均值1,958;最小值1,444;最大值2,000)。
全尺寸图像
我们的结果表明,计算机科学论文中法学硕士的使用增长最大和最快,到 2024 年 9 月,摘要α达到 22.5%,引言达到 19.6%。相比之下,数学论文和《自然》作品集的增幅最小,摘要的α分别达到 7.7% 和 8.9%,引言分别达到 4.1% 和 9.4%。
此外,我们的分析在总体层面上表明,较高水平的 LLM 修改与第一作者更频繁地发表预印本的论文和篇幅较短的论文相关。结果还表明,经过 LLM 修改的论文之间存在更强的相关性,这可能表明在更具竞争力的研究领域(通过嵌入空间中与最近相邻论文的接近程度来衡量)的使用有所增加,或者生成的文本正在减少写作多样性。我们采用了 Liang 等人的分布式 LLM 量化框架。9量化法学硕士修改的学术写作(方法)的流行率。
结果
arXiv、bioRxiv 和 Nature 产品组合数据概述
我们从三个来源收集了数据:arXiv、bioRxiv 和 Nature 组合中的 15 种期刊。对于 bioRxiv 和 Nature 作品集,我们从 2020 年 1 月到 2024 年 9 月每月随机抽样多达 2,000 篇论文。对于涵盖计算机科学、电气工程和系统科学、数学、物理和统计学等多个学术领域的arXiv,我们在同一时间段内每月为每个主要类别随机抽样多达2000篇论文。然后,我们使用方法中描述的两阶段方法生成了 LLM 生成的训练数据。
对于主要分析,我们专注于引言部分,因为引言是不同类别论文中最一致和最常见的部分。然而,对于arXiv上的计算机科学类别,该类别显示出最高的估计LLM修改内容,我们通过检查论文的各个部分进行了更详细的分析,包括摘要、引言、相关工作、方法、实验和结论(补充图。2). 有关全面的实施细节,请参阅补充部分 A。
数据拆分、模型拟合和评估
对于模型拟合,我们计算在 ChatGPT 和 LLM 修改后的语料库发布之前撰写的科学论文的词频。我们将模型与 2020 年的数据拟合,并使用 2021 年 1 月以来的数据进行验证和推理。我们为每个主要类别的摘要和引言拟合了单独的模型。
为了评估时间分布偏移下的模型准确性和校准,我们使用2022年1月1日至2022年11月29日(ChatGPT发布前的时间段)的3000篇论文作为验证数据。我们构建了LLM修改的内容比例(α),范围为0%至25%,增量为5%,并将模型的估计α与地面实况α进行了比较(图。2). 完整的词汇、形容词、副词和动词在我们的应用程序中都表现良好,在各种基本实况α值的总体水平上,预测误差始终小于 3.5%(图 1)。2)。
图2:时间分布偏移下估计精度的细粒度验证。
图2
面板 a–g 显示了每个学术写作场所的摘要的验证结果,而面板 h–m 显示了引言的验证结果。ADJ 和 ADV 分别指形容词和副词。我们评估了模型在具有挑战性的时间数据拆分下估计法学硕士修改内容 (α) 比例的准确性,其中验证数据(采样时间为 2022 年 1 月 1 日至 2022 年 11 月 29 日)与训练数据(截至 2020 年 12 月 31 日收集)在时间上相隔至少一年。x 轴表示地面实况α,而 y 轴表示模型的估计α。在所有情况下,α的估计误差都小于 3.5%。由于无法批量下载 PDF,我们没有纳入 bioRxiv 的介绍。数据以基于 1,000 次引导迭代± 95% CI 的平均值表示。对于每个基本实况α,n = 30,000 个句子。
全尺寸图像
人工智能修改的学术写作的时间趋势
我们应用该模型来估计每个论文类别每月摘要和引言的 LLM 修改内容 (α) 的比例。每个时间点都是独立估计的,没有应用时间平滑或连续性假设。
我们的研究结果表明,两份摘要中LLM修饰的内容(α)比例均稳步增加(图。1)和介绍(补充图。1),在计算机科学论文中观察到最大和最快的增长。到 2024 年 9 月,计算机科学的估计α已增加到 22.5% 的摘要(自举 95% 置信区间 (CI)(21.7%, 23.3%))和 19.6%的引言(自举 95% 置信区间 (19.2%, 20.0%))。电气工程和系统科学增长速度第二快,同期摘要(引导 95% CI(16.7%,19.3%))的估计α达到 18.0%,引言(引导 95% CI(17.8%,19.0%))达到 18.4%。相比之下,数学论文和《自然》作品集的增幅最小。到研究期结束时,数学的估计α已增加到摘要的7.7%(引导95%的CI(7.1%,8.3%))和引言的4.1%(引导的95%CI(3.9%,4.3%)),而Nature组合的估计α已达到摘要的8.9%(引导95%CI(8.2%,9.6%))和引言的9.4%(引导95%CI(9.0%, 9.8%)).
2022 年 11 月的估计值作为 ChatGPT 之前的比较参考点,因为 ChatGPT 于 2022 年 11 月 30 日推出。2022 年 11 月,计算机科学的估计α为 2.4%(引导 95% CI(2.1%,2.7%)),而电气工程和系统科学、数学和 Nature 组合的估计分别为 2.9%(引导 95% CI(2.3%, 3.5%))、2.5%(引导 95% CI(2.1%,2.9%))和 3.4%(引导 95% CI(2.8%, 4.0%))。这些值与我们在模态验证中发现的误报率一致(图。2)。
由于arXiv的计算机科学论文显示出最高的估计α,我们进一步按部分对主要论文内容进行了分层(补充图。2). 我们发现,与实验和方法部分相比,摘要、引言、相关工作和结论中 LLM 修改的内容比例更高(在 arXiv 的电气工程和系统科学论文中也观察到了类似的结果)(补充图3). 这一观察结果与法学硕士目前在摘要任务中的优势相一致,这可能会激发学者使用该工具撰写摘要。
第一作者预印本发帖频率与GPT使用率的关系
我们发现第一作者在 arXiv 上发布的预印本数量与其学术写作中经过 LLM 修改的句子的估计数量之间存在显着相关性。根据第一作者当年第一作者的arXiv计算机科学预印本数量,将论文分为两组:预印本2次或更少(≤2)次,预印本3次或以上(≥3次)预印本(图。3a). 我们对 2024 年的数据使用了 2023 年的作者分组,因为我们还没有完整的 2024 年作者数据。
图3:arXiv计算机科学论文中LLM修改与科学发表特征之间的关联。
图3
a,由更频繁发布预印本的第一作者撰写的论文往往具有较高比例的 LLM 修改内容。arXiv 计算机科学中的论文根据第一作者的预印本发布频率分为两组,以当年第一作者预印本的数量来衡量。第一作者的论文样本量为每季度 n = 2,000 个预印本 ≤2。对于第一作者的论文,预印本≥3,季度样本量各不相同(平均值1,202;最小870;最大1,849)。b、在更拥挤的研究领域,论文往往具有较高比例的法学硕士修改内容。arXiv 计算机科学中的论文根据其摘要与最接近的同行的嵌入距离分为两组:与最近的同行更相似的论文(低于中位距离),与最接近的同行不太相似的论文(高于中位距离)。在两组中,n = 每季度 2,000 篇独立论文。c,较短的论文往往具有较高比例的 LLM 修改内容。arXiv 计算机科学论文按其全文字数(包括附录)分为两个箱:低于或高于 5,000 字(四舍五入的中位数)。在两组中,n = 每季度 2,000 篇独立论文。当按更细粒度的受试者类别分层时,研究结果也成立(补充图。4-6)。数据以基于 1,000 次引导迭代的平均值± 95% CI 表示。
全尺寸图像
到 2024 年 9 月,第一作者在 2023 年拥有 ≥3 个预印本的论文摘要显示,估计有 22.9%(引导 95% CI (21.7%, 24.1%))由 LLM 修改的句子,而第一作者有 ≤2 个预印本的论文为 20.0%(引导 95% CI(19.2%,20.8%))(图3a). 我们在引言部分观察到类似的趋势,第一作者发布更多的预印本估计有 20.9%(引导 95% CI(20.4%,21.4%))的 LLM 修改句子,而第一作者发布较少的预印本为 17.8%(引导 95% CI(17.5%,18.1%)(图3a). 由于第一作者预印本的发布频率可能会因研究领域而混淆,因此我们对我们的发现进行了额外的稳健性检查。我们发现观察到的趋势适用于三个 arXiv 计算机科学子类别中的每一个:cs。CV(计算机视觉和模式识别),cs。LG(机器学习)和 cs.CL(计算和语言)(补充图。4a-c)。
我们的结果表明,发布更多预印本的研究人员倾向于在他们的写作中更广泛地使用法学硕士。对这种影响的一种解释可能是,CS 研究社区日益竞争和快节奏的性质激励采取措施加速写作过程。我们不评估这些预印本是否被接受出版。
论文相似度与法学硕士使用情况的关系
我们调查了一篇论文与其最接近的同行的相似性与摘要中估计的 LLM 使用情况之间的关系。为了衡量相似性,我们首先使用 OpenAI 的文本嵌入三小模型嵌入 arXiv 计算机科学论文中的每个摘要,为每个摘要创建一个向量表示。然后,我们计算 arXiv 计算机科学摘要中每篇论文的向量与其最近邻体之间的距离。根据这种相似性衡量标准,我们将论文分为两组:与最接近的同行更相似(低于中位距离)和不太相似(高于中位距离)。
这两组 LLM 使用的时间趋势如图所示。3b. ChatGPT 发布后,与最接近的同行最相似的论文始终显示出更高的 LLM 使用率,而那些最不相似的论文。到 2024 年 9 月,与最接近的同行更相似的论文摘要估计有 23.0%(引导 95% CI (22.3%, 23.7%))的句子被 LLM 修改,而与最接近的 CI 不太相似的论文为 18.7%(引导 95% CI (18.0%, 19.4%))。为了解释研究领域的潜在混杂效应,我们通过测量三个 arXiv 计算机科学子类别中每个类别中的最近邻距离来进行额外的鲁棒性检查:cs。CV(计算机视觉和模式识别),cs。LG(机器学习)和 cs.CL(计算和语言),并发现观察到的趋势适用于每个子类别(补充图。5a-c)。
有几种方法可以解释这些发现。首先,LLM 在书面中的使用可能会导致书面或内容的相似性。我们观察到的相似性可能是偶然的,也可能是被追捧的:如果学者们认为生成文本的“风格”比他们自己的风格更有声望,那么社区压力可能会激励他们纳入法学硕士生成的文本。或者,领域的拥挤性质可能会导致使用量增加:法学硕士可能更常用于论文往往更相似的研究领域。如果一个子领域更加拥挤,那么多个研究团队可能会研究同一主题并产生类似的写作。由此产生的竞争可能会迫使研究人员利用法学硕士生成的文本来加快研究结果的发表。为了进一步探讨这些假设,我们的比较分析(补充部分 B.4)提供了支持第一种假设的暗示性证据:LLM 使用率高和低的论文与 2022 年出版物的最近邻距离相当——表明基线领域竞争力相似——但在比较 2023 年最近的邻距离时表现出更明显的差距。这种模式支持了这样一种解释,即法学硕士的使用本身可能有助于提高学术写作的相似性。
纸张长度与人工智能使用之间的关系
我们还探讨了论文长度与 arXiv 计算机科学论文中 LLM 使用之间的关联。这些论文按全文字数(包括附录)分为两个箱:低于或高于 5,000 字(四舍五入的中位数)。
图 3c 显示了这两组 LLM 使用的时间趋势。ChatGPT 发布后,与较长的论文相比,较短的论文始终显示出更高的 LLM 使用率。到 2024 年 9 月,较短论文的摘要估计有 22.0%(引导 95% CI(21.2%,22.8%))的句子被 LLM 修改,而较长论文的这一比例为 19.3%(引导 95% CI(18.6%,20.0%))(图3c)。
我们在引言部分观察到类似的趋势(图。3c). 为了考虑研究领域的潜在混杂效应,我们进行了额外的稳健性检查。这一发现适用于两个 cs。CV(计算机视觉和模式识别)和 cs。LG(机器学习)(补充图。6a-c)。然而,对于 cs.CL(计算和语言),我们发现较短和较长的论文之间的 LLM 使用没有一致的差异,这可能是由于样本量有限,因为我们只解析了 LaTeX 源的子集并计算了它们的全长。
由于计算机科学会议论文通常有固定的页数限制,因此较长的论文可能在附录中有更实质性的内容。这些论文中较低的法学硕士使用率可能表明,从事更全面工作的研究人员在写作中较少依赖法学硕士辅助。然而,需要进一步调查以确定论文长度、内容全面性和研究质量之间的关系。
学术写作采用法学硕士的区域趋势
为了调查采用法学硕士进行学术写作的区域趋势,我们分析了不同地区在arXiv上的计算机科学论文(按第一作者归属关系)和生物学论文(按通讯作者隶属关系)中法学硕士使用的季度增长情况(图。4a,b)。有趣的是,与北美和英国相比,我们观察到来自英语使用者人口较少的地区(包括中国和欧洲大陆)的 bioRxiv 论文的估计使用率更高(图 14b). 来自非洲和南美洲的论文数量太少,无法纳入我们的计算,这表明努力增加科学出版的地域多样性是迫切重要的。这种差异可能归因于作者使用 ChatGPT 提供英语帮助。在 arXiv 数据中,尽管到研究结束时,各地区对 LLM 使用情况的绝对估计值相似,但相对增长模式显示出显着的差异。特别是,我们的结果表明,当假阳性率降低时,中国表现出最大的相对增长,这与我们在bioRxiv中的发现一致。
图 4:采用法学硕士进行学术写作的区域趋势。
图4
a,按第一作者隶属地区划分的 arXiv 计算机科学出版物中 LLM 使用的季度增长。不同地区(北美、中国、欧洲大陆和英国)在法学硕士采用方面表现出持续的上升趋势。对于北美,季度样本量 n = 2,000。对于中国,季度样本量各不相同(平均值 1,752;最小值(最小值)为 1,232;最大(最大值)为 2,000)。对于欧洲大陆,季度样本量各不相同(平均值 1,929;最小值 1,491;最大值 2,000)。对于英国,季度样本量各不相同(平均值 558;最小值 346;最大值 835)。b,第一作者隶属地区在bioRxiv上生物学出版物中法学硕士使用量的季度增长。不同地区(北美、中国、欧洲大陆和英国)的 LLM 使用率持续增长,来自英语使用者比例较低的地区(包括中国和欧洲大陆)的论文显示出略高的估计使用率。对于北美,季度样本量 n = 2,000。对于中国,季度样本量各不相同(平均值 688;最小值 439;最大值 872)。对于欧洲大陆,季度样本量 n = 2,000。对于英国,季度样本量各不相同(平均值 830;最小值 541;最大值 972)。c,LLM修改内容流行量化对校对的鲁棒性。该图说明了在使用法学硕士进行“校对”后估计的法学硕士修改内容的相似比例,跨了各种 arXiv 主要类别。对于每个领域,样本量为 n = 1,000 个独立摘要。这一发现证实了我们的方法对法学硕士生成的次要文本编辑的稳健性,例如由简单校对任务引入的编辑。数据以基于 1,000 次引导迭代± 95% CI 的平均值表示。
全尺寸图像
为了进一步验证我们方法的稳健性,我们检查了使用LLM进行“校对”对各种arXiv主要类别中LLM修改内容的估计比例的影响(图。4c 和补充图。7). 校对后估计的 LLM 修改内容比例的相似性,仅略有可测量的增加约 1%,证实我们的方法对 LLM 在简单校对任务期间生成的次要文本编辑是稳健的。总体而言,这些发现凸显了法学硕士在不同地区和研究领域的学术写作中的使用越来越多,强调需要进一步研究与其使用相关的影响。
基于我们对 LLM 在学术写作中的使用情况的观察,我们对学者如何在写作中披露这种使用进行了简要分析。我们手动检查了 2024 年 2 月上传到 arXiv 的 200 篇随机抽样的计算机科学论文。我们发现,在 200 篇论文中,只有 2 篇明确披露了在论文写作过程中使用 LLM。对披露动机的进一步分析可能有助于确定解释。例如,关于在学术写作中披露法学硕士使用的政策可能仍然不明确,或者学者可能有其他动机故意避免披露使用。
讨论
我们对各种平台(arXiv、bioRxiv 和 Nature 作品集)学术写作中经过 LLM 修改的内容进行了分析,结果显示,从 ChatGPT 发布后 ~5 个月开始,经过 LLM 修改的内容的估计比例急剧增加。5 个月的滞后和使用量增加的斜率反映了 LLM 的传播和采用速度。我们确定了计算机科学论文增长最快的地区,这一趋势可能部分归因于计算机科学研究人员对法学硕士的熟悉和访问。此外,法学硕士研究的快节奏性质以及相关的快速发表压力可能会激励使用法学硕士写作辅助工具12.
我们量化了与学术写作中较高的法学硕士使用相关的其他几个因素。首先,更频繁地发布预印本的作者在他们的写作中展示了更高比例的 LLM 修改内容。其次,与不太拥挤地区的论文相比,在更拥挤的研究领域(论文往往更相似)中,论文表现出更高的 LLM 修改。第三,与较长的论文相比,较短的论文始终显示出更高的法学硕士修改,这可能表明试图产生更多写作的研究人员更有可能依赖法学硕士。这些结果可能是某些研究领域的竞争性质和快速发表压力的指标。我们还发现,与实验和方法部分相比,摘要、引言、相关工作和结论中人工智能修改的内容比例更高。这表明研究人员可能更愿意使用 LLM 执行摘要任务,例如撰写摘要,传统上,摘要会提供整篇论文的简明概述。
此外,我们对法学硕士在学术写作中的采用进行的区域分析显示,与北美和英国相比,来自英语使用者较少的地区(包括中国和欧洲大陆)的 bioRxiv 论文的估计使用率更高。在 CS arXiv 论文中,不同地区的 LLM 使用率增长始终很高,这可能反映了跨学科的差异。值得注意的是,使用作者隶属关系作为原籍国的代理具有固有的局限性,因为它可能无法准确反映作者的语言或文化背景。此外,在 arXiv 和 bioRxiv 上发布的论文可能无法完全代表每个地区的所有研究成果,并且对于在区域期刊或我们分析未捕获的其他场所发表的论文,LLM 的使用模式可能会有所不同。
我们如何解释世界不同地区对法学硕士的采用不均衡?法学硕士在科学出版中的一个广泛讨论的用例是多语言科学家对写作的“润色”。如今,英语在科学出版中几乎处于霸权地位,对不以英语为第一语言的科学家征收了“税”13.一种可以产生主要学术英语变体的技术可以假设降低进入门槛 14,15.然而,最近的几项研究证明了人工智能使用与学术语言意识形态之间复杂的相互作用。莱普和史密斯16发现虽然 ChatGPT 可能会掩盖写作中的“错误”,但同行评审员现在将“深入研究”等词描述为作者可能不是英语母语的指标。作家们预料到了这一点,并试图从他们的写作中删除 ChatGPT 标记。梁等人。7表明 GPT 检测器还会根据语言背景歧视人们。阿加瓦尔等人。17表明 LLM 不仅对“西方”语言使用“同质化”,而且对内容也是如此。在科学背景下,不同的想法会形成强大的研究生态系统,这一发现提出了关于使用法学硕士进行语言同化的可取性的新问题18.从未来的系统级研究中,人们如何利用人工智能来表达和驾驭复杂的语言意识形态,可以学到很多东西。未来的研究应该收集有关作者背景、研究主题和动机的更精细的数据,以更好地了解法学硕士采用的地区差异及其对全球科学传播的影响。
而我们的研究侧重于 ChatGPT,它占该类别全球互联网流量的四分之三以上19,我们承认还有其他法学硕士用于辅助学术写作。无论如何,严重依赖私营公司拥有的法学硕士会引发人们对保护科学工作的安全和自主性的担忧。我们希望我们的研究结果能够引发对法学硕士辅助写作广泛使用的进一步调查,并鼓励讨论如何创建重视开放性、知识多样性、事实可靠性和学术独立性的科学出版环境。
此外,虽然之前的工作7证明 GPT 检测方法可以错误地将语言学习者的写作识别为 LLM 生成,我们的结果显示,到 2022 年,α的误报估计值一直很低,其中很大一部分是由多语言学者撰写的文本。我们认识到作者群体发生了重大变化20或其他语言使用的变化仍可能影响我们估计的准确性。此外,虽然我们的模型在检测 LLM 修改的内容方面表现出高精度,但它有几个局限性。首先,检测方法不是 LLM 使用情况的直接衡量标准,它识别与 LLM 生成的文本一致的统计模式,这些模式可能并不总是与实际使用相对应。其次,该方法系统地高估了低端的LLM使用情况,而低估了分布高端的LLM使用情况。这些偏差可能会影响绝对患病率估计,尽管相对趋势仍然强劲。第三,写作风格的转变、研究实践的演变或作者人口统计数据的变化(例如,多语言学者的参与增加)也可能影响模型预测。尽管存在这些限制,但减去假阳性率后的相对增加仍然很大(例如,arXiv CS 论文的摘要为 19%)并支持我们的总体发现。最后,我们观察到法学硕士使用与论文特征之间的关联是相关性,可能受到其他因素(例如研究主题)的影响。未来的研究应该探讨法学硕士的使用与观察到的时间变化之间的因果关系。
先前的研究表明,CS 研究人员采用人工智能技术的比例高于其他领域的研究人员21.这可能是由于他们对人工智能的接触和熟悉程度更高,因为人工智能研究主要起源于计算机科学,并通过与计算机科学研究人员的合作进行传播22.此外,对人工智能的熟悉可能会增强对其使用的信心,因为研究表明对人工智能的熟悉程度和信心之间存在相关性 23,24.然而,我们的研究并没有区分这些机制,这种限制可能会限制我们对推动人工智能技术采用的潜在因素的全面理解。
我们对生成或修改论文兴起的观察为未来的研究提出了许多问题。此类论文在准确性、创造力或多样性方面如何比较?读者对 LLM 生成的摘要和引言有何反应?LLM 生成的论文的引用模式与类似领域的其他论文相比如何?LLM 行业中少数营利性组织的主导地位将如何影响科学产出的独立性?我们希望我们的结果和方法能够激发对广泛的 LLM 修改文本的进一步研究,以及关于如何促进透明、多样化和高质量科学出版的对话 |
| [返回] |