欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033
微信:paperwinner
工作时间:9:00-24:00
博士论文
当前位置:首页 > 博士论文
人工和LLM生成的新闻文本中的对比语言模式
来源:一起赢论文网     日期:2025-04-13     浏览数:57     【 字体:

 人工和LLM生成的新闻文本中的对比语言模式

 
我们进行了一项定量分析,将人工编写的英文新闻文本与来自六个不同 LLM 的可比大型语言模型 (LLM) 输出进行对比,这些 LLM 涵盖三个不同的家庭和总共四种大小。我们的分析跨越了几个可衡量的语言学维度,包括形态学、句法、心理测量和社会语言学方面。结果揭示了人类和 AI 生成的文本之间的各种可测量差异。人类文本表现出更分散的句子长度分布、更多样化的词汇、依赖关系和成分类型的独特使用、更短的成分和更优化的依赖关系距离。与 LLM 生成的文本相比,人类往往表现出更强烈的负面情绪(如恐惧和厌恶)和更少的快乐,这些模型的毒性随着其规模的增长而增加。LLM 输出使用的数字、符号和助词(表示客观语言)比人类文本多,以及更多的代词。人类文本中普遍存在的性别歧视偏见也由 LLM 表达,甚至在除一个之外的所有 LLM 中都被放大。LLM 与人类之间的差异大于 LLM 之间的差异。
 
其他人正在查看类似内容
 
Lingualyzer:用于多语言和多维文本分析的计算语言工具
文章 开放获取 29 十一月 2023
 
AI 生成内容的偏差:对大型语言模型生成的新闻的检查
文章 开放获取 04 三月 2024
 
MINT - 主流和独立新闻文本语料库
章节 © 2022
探索相关主题
发现来自相关学科顶级研究人员的最新文章、新闻和故事。
人工智能
1 介绍
大型语言模型 (LLM;Radford等人,2018 年;Scao et al., 2022;Touvron et al., 2023)和指令调整变体(OpenAI 2023;Taori et al. 2023) 以多种语言输出流畅、类似人类的文本,其中英语是最好的代表。这些模型真正理解语义的程度(Landgrebe 和 Smith 2021;Søgaard 2022)、编码世界的表征(Li 等人,2022 年)、生成虚假陈述(Kumar 等人,2023 年)、传播特定的道德和伦理价值观(Santurkar 等人,2023 年),或根据他们对形式而不是意义的训练来理解语言(Bender 和 Koller 2020),目前正在进行激烈的辩论。无论如何,促成这些模型具有说服力的一个关键因素首先在于它们非凡的语言流利度。
 
一个问题是他们的讲故事策略是否与在人类生成的文本中观察到的语言模式一致。这些模型是否倾向于使用更华丽或多余的词汇?他们在句子生成中是否表现出对特定语音或句法结构的偏好?他们是否容易受到某些心理测量维度的影响?然而,对比这些语言模式并非易事。首先,这些模型的创建者通常没有充分记录所使用的训练数据。即使有可用的信息,确定训练集对句子的影响程度或它是否与输入样本相似仍然具有挑战性。其次,语言受文化规范、社会因素和地理差异的影响,这些因素塑造了语言偏好和习俗。因此,为了对比人类和机器之间的语言模式,建议依赖受控环境。在这种情况下,人们的注意力主要集中在社会和人口偏见等显性偏见上(Liang 等人,2021 年)。
 
图 1
图 1
我们从 New York Times API 收集当代文章,并使用它们的标题加上引导段落的 3 个前词作为提示 LLM 生成新闻。我们使用 LLaMa 系列的四种 LLM(7B、13B、30B 和 65B 尺寸),即 Falcon 7B 和 Mistral 7B。然后,我们比较这两种类型的文本,评估词汇、形态句法结构和语义属性等方面的差异
 
全尺寸图像
1.1 研究贡献和目标
我们研究了六个生成式大型语言模型:Mistral 7B(江 et al. 2023)、Falcon 7B (Almazrouei et al. 2023) 和来自 LLaMa 家族的四个模型(7B、13B、30B 和 65B)(Touvron et al. 2023)。我们使用英语新闻文本将几种语言模式与人类文本进行对比。为此,我们恢复了人工生成的新闻,并要求模型根据新闻的标题和第一个单词生成新闻段落。我们查询 New York Times Archive API 以检索在发布所有使用的模型后发布的新闻,以保证从训练集中进行灭菌。我们分析了各种语言模式:词汇分布的差异、句子长度、词性 (PoS) 标签、句法结构、心理测量特征(如新闻文章的语气和文本中可检测到的情绪)以及社会语言学方面(如性别偏见)。我们在图 1 中描绘了一个概述1. 我们还探讨了这些差异在不同大小和家庭的模型之间是否发生变化。这项工作中使用的数据和脚本可在 https://zenodo.org/records/11186264 上获得。
 
阿拉伯数字 相关工作
接下来,我们调查了与本文主题相关的工作:(i) 分析机器生成文本的固有语言特性,(ii) 区分机器和人类生成的文本,(iii) 使用 LLM 进行自然语言注释和数据生成。
 
2.1 分析 AI 生成文本的语言特性
认知科学家 (Cai et al. 2023) 已经将 ChatGPT 等模型暴露在最初为人类设计的实验中。他们验证了它能够复制人类模式,例如将不熟悉的单词与含义相关联、对损坏的句子进行降噪或重用最近的句法结构等功能。然而,他们也表明,ChatGPT 倾向于避免使用较短的单词来压缩含义,也不使用上下文来解决语法歧义。同样,Leong 和 Linzen (2023) 研究了 LLM 如何能够学习句法规则的例外情况,声称 GPT-2 和人类判断高度相关。周 et al. (2023) 对人工智能创造的错误信息和人为创造的错误信息进行了彻底的比较。他们首先策划了一个与 COVID-19 大流行有关的人为错误信息数据集。然后,他们使用这些代表性文件作为 GPT-3 生成合成错误信息的提示。通过分析和对比两个来源的输出,该研究揭示了显着差异。AI 制作的假新闻往往使用引人注目的语言,更加情绪化。它还经常在没有适当证据的情况下提出怀疑,并匆忙得出毫无根据的结论。最近,Xu 等人(2023 年)阐明了 GPT-3.5 和 GPT-4 的词汇概念表示。他们的研究表明,这些 AI 语言模型与特定维度(如情感和显著性)的人类概念表示表现出很强的相关性。然而,他们在处理与知觉和运动方面相关的概念时遇到了挑战,例如视觉、味觉、手/手臂或嘴/喉方面等。为了衡量两种类型文本之间的差异,Pillutla 等人(2021 年)引入了 MAUVE,这是一种新指标,旨在将语言生成模型的学习分布与在人类生成文本中观察到的分布进行比较。鉴于开放式文本生成的固有挑战,即没有单一的正确输出,他们通过利用散度曲线的概念解决了测量分布之间接近度的问题。在这项工作作为预印本发布后,其他作者从语言学的角度研究了语言模型生成的文本。Martínez 等人(2023 年)开发了一种工具来评估语言模型的词汇知识,并在 ChatGPT 上进行了测试。其他工作还评估了 ChatGPT 的词汇丰富度以及它在不同参数方面的变化(Martínez 等人,2024 年)。事实证明,语言分析是理解 LLM 输出的宝贵工具。在我们的工作中,Rosenfeld 和 Lazebnik (2024) 对三个流行的 LLM 的输出进行了语言分析,得出的结论是,这种类型的信息可用于机器生成文本的 LLM 归因。此外,比较语言测量在模型基准中很常见(Wang et al. 2018)。
 
2.2 元识别合成生成的文本
该研究路线旨在区分机器生成的文本和人类编写的文本(Crothers 等人,2023 年),从而促进各个领域的问责制和透明度。这一挑战已从不同角度得到解决,包括统计、句法(Tang 等人,2024 年)、基于特征的方法(Nguyen-Son 等人,2017 年;Fröhling 和 Zubiaga 2021 年)和神经方法(Rodriguez 等人,2022 年;Zhan 等人,2023 年)。然而,Crothers 等人(2022 年)最近得出结论,除了神经方法外,其他方法几乎没有能力识别现代机器生成的文本。Ippolito et al. (2020) 观察到与此分类任务相关的两个有趣行为:(i) 使用更复杂的采样方法可以帮助生成文本更好地欺骗人类认为它是由人编写的,但反过来,使机器的检测更容易获得和简单,以及 (ii) 显示更长的输入有助于机器和人类更好地检测合成生成的字符串。Munir 等人(2021 年)表明,使用使用 XLNet 的标准机器学习分类架构(Yang 等人,2019 年)作为其主干,可以将给定的合成生成文本归因于生成该文本的特定 LLM 模型。在另一条线上,Dugan 等人(2020 年)研究了人类是否能够识别最初人工生成的文本过渡到机器生成的文本的栅栏柱,并以平均 2 个句子的延迟检测过渡。还有一些方法专门设计用于为高度敏感的域生成或检测机器生成的文本,以警告语言技术的危险。SCIgen 软件(Stribling 等人,2005 年)能够创建语义无意义但语法正确的研究论文,其内容在一些同行评审过程不佳的会议上被接受。最近,Liao et al. (2023) 表明,ChatGPT 生成的医学文本很容易被发现:虽然语法正确,但文本更加模糊,只提供一般术语或知识。然而,这是一项艰巨的任务,检测 AI 生成文本的方法不准确,容易受到攻击(Sadasivan 等人,2023 年)。
 
2.3 Natural language annotation and data generation using LLMs
当前合成生成的文本的质量鼓励研究人员探索它们在补充劳动密集型任务(如注释和评估)方面的潜力。例如,He et al. (2022) 生成了为特定 NLP 任务量身定制的合成无标签文本。然后,他们使用现有的监督分类器对这些句子进行银注释,旨在建立一个完全合成的过程来生成、注释和学习与目标问题相关的实例。相关,Chiang 和 Lee (2023) 调查了 LLM 是否可以在下游任务中作为人类评估器的可行替代品。下游任务的一些示例包括文本分类(Li et al. 2023b)、意图分类(Sahu et al. 2022)、有毒语言检测(Hartvigsen et al. 2022)、文本挖掘(Tang et al. 2023)或数学推理(Liu et al. 2023b),等等。特别是,他们进行了实验,其中 LLM 使用与提供给人类的相同指令和样本进行提示,揭示了两种评估者分配的评级之间的相关性。此外,还有工作可以自动检测数据集中具有挑战性的样本。例如,Swayamdipta 等人(2020 年)已经使用 LLM 的微调阶段来识别简单、困难和模糊的样本。Chong et al. (2022) 证明,语言模型通过简单地对微调数据的损失进行排序,可用于检测数据集中的标签错误。
 
LLM 还有助于生成高质量的文本来预训练其他模型。以前的工作使用语言模型生成合成数据,以使用预训练模型增加可用数据量(Kumar et al. 2020)。合成数据还用于预训练和提取语言模型。数据质量已被证明是训练 LLM 的决定因素。额外的合成数据有助于扩展数据集大小以补偿小模型大小,从而获得功能更强大的小模型。LLM 允许生成高质量的合成文本,可用于训练小型语言模型 (SLM)。其中一个例子是 Eldan 和 Li (2023)。他们使用 GPT-3.5 和 4 生成了具有有限词汇和主题的高质量数据来训练 SLM,这些数据在特定领域表现出连贯性、创造力和推理性。Phi 模型家族(Gunasekar 等人,2023 年;Li 等人,2023a;Javaheripi 等人,2023 年)展示了合成数据在训练高性能但 SLM 方面的有效性。作者混合使用高质量的教科书数据和综合生成的教科书来训练高度称职的 SLM。此外,合成数据已被用于创建指令调整数据集,以使 LLM 的行为适应用户提示(Peng 等人,2023 年)。合成数据还可以帮助防止 LLM 在客观不正确时根据以前的人类观点调整他们的答案(Wei 等人,2023 年)。然而,尽管有用,但综合生成的数据可能会损害性能(Shumailov 等人,2023 年),尤其是当手头的任务或实例是主观的时(Li 等人,2023b)。
 
Synthetic datasets provide data whose content is more controllable, as LLMs tend to reproduce the structure of the datasets they have been trained on. Most LLMs are trained totally or partially on scraped data from the web, and such unfiltered internet data usually contain biases or discrimination as they reproduce the hegemonic view (Bender et al. 2021). Some widely-used huge datasets such as The Pile (Gao et al. 2020) confirm this. Authors extracted co-occurrences in the data that reflect racial, religious and gender stereotypes, which are also shown in some models. Some datasets are filtered and refined to improve the quality of the data. However, they still reproduce the biases in it (Penedo et al. 2023). Moreover, Dodge et al. (2021) did an extensive evaluation of the data of the C4 dataset (Raffel et al. 2020), pointing out filtering certain information could increase the bias on minorities. Prejudices in the data are reproduced in the LLMs trained on them, as some studies have pointed out (Weidinger et al. 2021). LLMs show the same biases that occur in the datasets, ranging from religious (Abid et al. 2021) to gender discrimination (Lucy and Bamman 2021).
 
3 Data preparation
Next, we will examine our data collection process for both human- and machine-generated content, before proceeding to the analysis and comparison.
 
3.1 Data
We generate the evaluation dataset relying on news published after the release date of the models that we will use in this work. This strategy ensures that they did not have exposure to the news headlines and their content during pre-training. It is also in line with strategies proposed by other authors—such as Liu et al. (2023) - who take an equivalent angle to evaluate LLMs in the context of generative search engines. The reference human-generated texts will be the news (lead paragraph) themselves.
 
We use New York Times news, which we access through its Archive API.Footnote1 Particularly, we gathered all articles available between October 1, 2023, and January 24, 2024, resulting in a dataset of 13,371 articles. The articles are retrieved in JSON format, and include metadata such as the URL, section name, type of material, keywords, or publication date. Figure 2 shows some general information about the topics and type of articles retrieved. We are mainly interested in two fields: the headline and the lead paragraph. The lead paragraph is a summary of the information presented in the article. We discarded the articles that had an empty lead paragraph. The collected articles primarily consist of news pieces, although around 26% also include other types of texts, such as reviews, editorials or obituaries.
 
Fig. 2
figure 2
Treemaps for the ‘section name’ and ‘type of material’ fields of the crawled articles
 
Full size image
3.1.1 Rationale for methodological decisions and technical trade-offs
我们选择了更保守的设置,将研究重点放在英语上,平衡了分析的深度和实际限制。虽然这种选择在各种与语言相关的领域都很常见,包括认知科学(Blasi 等人,2022 年),但它意味着在英语和新闻领域之外应用我们的结果时要谨慎解释它们。通过仅分析英语,我们可以为未来包含多语言分析的研究建立基线。此外,这种初始方法可以使研究人员清楚地识别英语结果与其他不同语言结果之间的差异。
 
此外,我们的决定是由一些物流原因驱动的。首先,我们使用的 LLM(详见 Sect.3.2) 以英语为中心。LLaMa 的数据集包含超过 70% 的英语内容,而 Falcon 的数据集甚至更高,超过 80%。使用 Mistral 时,训练数据的细节没有披露,这增加了额外的复杂性。在这种情况下,值得注意的是,主要使用来自特定人口统计或地区的数据进行训练的模型可能会对这些语言模式产生偏见,从而可能忽略其他语言模式。不同语言输入对模型性能影响的清晰度也很有限,这使得公平分析进一步复杂化。此外,重要的是要注意,我们使用了非指令调整模型,这些模型在遵守英语以外的语言方面表现出了我们提到的局限性。考虑到这些模式的技术限制和发展阶段,这加强了我们在这个阶段专注于英语的决定。评估 Instruction-tuned 模型将是有趣和有用的,但作为一项单独的工作,具有不同的重点和贡献。在这里,我们决定专注于尚未在教学调整数据集上训练的基础模型,以评估预训练过程和模型大小对语言模式的影响。包括 instruction-tuned 变体将引入另一层训练,模糊预训练和大小的影响。考虑到这些因素,我们在分析中选择了深度而不是广度,以提供更全面的评估,但仅限于英语。
 
我们还意识到,我们的提示方法需要一定的权衡。引导段落不是从标题写的,而是从文章的文本写的。如果人类从标题中生成了引言段落,我们假设他们会以与 LLM 类似的方式面临相关信息的缺乏:(i) 限制标题中给出的信息,提供更短的引言段落,其中包含标题中的重复信息,或 (ii) 根据该主题的先验知识生成可能适合数据的新信息。我们认为后一种策略类似于 LLM 所做的,那么这将是一个首选的比较。然而,由于以这种方式生成人类数据的成本真的很高,我们选择了我们选择的策略,因为来自引导段落的数据与标题中的数据高度相关,即使引导段落不是从标题本身写的。
 
3.2 代
设 \({\mathcal {H}}\) = \([h_1, h_2,..., h_N]\) 是一组人工生成的文本,使得 \(h_i\) 是 \((t_i, s_i)\) 形式的元组,其中 \(t_i\) 是标题,\(s_i\) 是一段带有相应新闻摘要的文本。同样,我们将 \({\mathcal {M}}\) = \([m_1, m_2,..., m_N]\) 定义为由 LLM 生成的机器生成的新闻文章集,使得 \(m_i\) 也是来自 (\(t'_i, s'_i)\) 的元组,其中 \(t'_i = t_i\) 和 \(s'_i=[w'_1,w'_2,...,w'_{|s_i|}]\) 是一段合成文本。为了生成高质量的文本,语言模型的目标是根据前一个内容最大化下一个单词的概率。为了确保模型与域和主题保持一致,我们使用标题(发布新闻的记者选择的标题)和人工生成的引导段落的前三个词来初始化前面的内容,以帮助模型开始并跟踪主题。脚注2正式地,我们首先将模型设在 \(c_i = t'_i \cdot s_{i[0:2]}\) 上,然后每个下一个单词 (\(i \ge 3\)) 都将从条件分布 \(P(w'_i|c_i \cdot s'_{i[3:t-1]})\) 中预测出来。
 
为了生成一段合成文本 \(s'\),如上所述,我们用包含标题和第一个单词的提示来调节模型,然后我们不断生成新闻文本,直到模型决定停止。脚注3我们使模型能够输出文本,而无需任何强制条件,但不超过 200 个标记除外。长度限制有两个主要目的:(i) 有效地管理计算资源,脚注4以及 (ii) 确保生成的内容与人工编写的引导段落的典型长度相似,使其与人工制作的内容相当。在早期实验中,我们在比较了人类和模型之间标记数量的平均值和标准差后得出了这个极限。
 
3.3 精选型号
我们依赖于 NLP 社区中具有代表性的六种预先训练的生成语言模型。这些模型涵盖 4 种不同的大小(7、13、30 和 650 亿个参数)和 3 个模型系列。我们只包括 LLaMa 的不同大小,因为同一系列中的结果是相似的,并且较大的模型需要更多的计算。我们在下面简要介绍它们的主要特点:
[返回]

下一篇:多模态数据训练和预测方法