欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033
微信:paperwinner
工作时间:9:00-24:00
MBA论文
当前位置:首页 > MBA论文
探索 LLM 通过教学模拟增强教学计划的潜力
来源:一起赢论文网     日期:2025-05-10     浏览数:105     【 字体:

 探索 LLM 通过教学模拟增强教学计划的潜力

开放获取
出版日期:2025 年 2 月 6 日
第 10 卷,文章编号 7,(2025 年)
引用本文
下载 PDF
您对此具有完全访问权限
开放获取
 
 
npj 学习科学
探索 LLM 通过教学模拟增强教学计划的潜力
下载 PDF
比浩胡,朱佳怡,裴一英 & 顾晓青 
7314 次访问
 
1 Altmetric
 
探索所有指标
 
抽象
大型语言模型 (LLM) 的引入可能会改变未来的教学实践。目前的研究主要集中在使用 LLM 来辅导学生,而对 LLM 协助教师的潜力的探索是有限的。以高中数学为例,我们提出了一种方法,通过指导法学硕士模拟师生互动,产生教学反思,然后指导法学硕士通过整合这些教学过程和反思来完善教学计划,从而利用法学硕士来提高教学计划的质量。人工评估结果表明,这种方法显著提高了 LLM 直接生成的原始教学计划的质量。改进后的教学计划可与人类教师在各种评估维度和知识模块中制定的高质量教学计划相媲美。这种方法提供了课前排练模拟和教学计划改进的想法,为 LLM 在教学准备中的广泛应用提供了实际证据。
 
其他人正在查看类似内容
 
扩大教育 – 探索使用生成式 AI 支持高等教育授课
报道 2024-08-06
 
增强基于 LLM 的反馈:来自智能辅导系统和学习科学的见解
章节 © 2024
 
从“Giving a Fish”到“Teaching to Fish”:使用大型语言模型增强 ITS 内部循环
章节 © 2024
探索相关主题
发现相关学科研究人员的最新文章和新闻,建议使用机器学习。
数字教育和教育技术
介绍
大型语言模型 (LLM) 凭借其卓越的自然语言理解和第1 代能力,推动了人机交互教育应用的发展,例如智能辅导系统和助教,为教学范式的转变提供了新的机会2.特别是在学生辅导方面,建立在 LLM 上的代理可以承担人类教师的大部分教学任务。通过扮演虚拟导师、助手和学习伙伴的角色,这些 LLM 为学生提供个性化、互动和引人入胜的学习体验 3,4,5,6。虽然 LLM 在提高学生学习方面表现出潜力,但很少有研究探讨 LLM 如何支持教师的教学7,特别是使用 LLM 可以在多大程度上影响各种教学过程,例如教学准备、课堂教学以及课后反思和改进8.一些研究人员对使用 LLM 来支持教学进行了初步研究,但结果喜忧参半。例如,一些学校使用 LLM 来评估教师的课堂表现,但这些评估的准确性和评估内容的连贯性需要进一步改进9。其他研究人员在教师培训计划中应用了 LLM,发现这些 LLM 难以提供创新、一致和有价值的教学指导10。研究人员还使用 LLM 生成教材,包括课程大纲、教学手册和练习。然而,这些材料没有得到系统的评估和验证,其内容往往缺乏特异性和实用性11。目前的研究表明,法学硕士在理解教学过程的复杂性和生成多样化的教学内容方面仍然需要改进。在这项研究中,我们提出了一种使用 LLM 来提高教学计划质量的方法,这可以提高 LLM 对教学的理解,并更好地支持教师的教学准备。我们要求 LLM 模拟教学过程并根据原始教学计划生成教学反思。从这些模拟和反思中,指导 LLM 生成新的教学计划。人工评估表明,改进后的教学计划可以达到熟练的人工教师编写的教学计划的高质量水平。
 
教学计划是教师在教学准备期间创建的教学设计。它作为指导课堂教学的预设计划,反映了教师对特定课程12 的教学思路和策略。经验丰富的教师在制定教学计划时,会考虑学生的实际需求,设计合适的教学内容和方法13。然而,由于实际教学经验有限,新手教师往往难以预见学生的需求和潜在的学习挑战14。因此,他们的教学计划往往是通用的,有时是从其他教师的示范性教学计划汇编而成的,往往缺乏深度和连贯性15,16。因此,新手教师经常在几节课中教授相同的内容,以更全面地了解学生在学习过程中的真实需求和挑战。这种做法使他们能够积累教学经验,提高教学计划的具体性和质量。课堂上积极和谐的师生互动可以及时反馈学生的学习进度,并帮助教师发现学生遇到的困难。然而,高师生比使教师难以捕捉每个学生的个性化学习需求和困难17.这在初中和高年级尤为明显,大多数学生由于害羞或不愿意透露他们缺乏知识,避免主动寻求老师的帮助。只有少数学生在课后向老师寻求帮助。因此,教师难以全面识别学生面临的具体障碍并获得足够的学习反馈,使改进教学计划和积累教学经验的过程更加困难。此外,教学计划大多在课后教学反思中进行修改和优化,这意味着改进、更高质量的教学计划主要有利于后续课程的学生。除非为补充教学分配额外的上课时间,否则当前班级学生的好处仍然有限。因此,预见学生在教学过程中可能遇到的潜在学习困难,并提前相应地调整教学计划内容变得尤为重要18.
 
教师经常反思学生在课堂上遇到的挑战,然后修改和完善他们的教学计划14,我们建议 LLM 可能能够在实际教学开始之前预测学生潜在的学习挑战。这种方法可以帮助教师提前优化教学计划的内容,降低教学风险,提高教学质量,确保所有学生都能从改进的教学材料中受益。实现这一目标的关键在于 LLMs19 的角色扮演能力。在这项研究中,我们设计了提示命令,使 LLM 模拟教师和不同能力水平的学生之间的课堂互动。LLM 首先根据教学计划的内容模拟教学过程,包括学生遇到学习挑战的场景,例如由于概念混淆而提供错误的答案。然后,利用 LLM 的反射和纠错功能20,我们使用 LLM 根据模拟教学过程生成教学反射。随后,根据教学过程和反思文本,指示法学硕士对原来的教学计划进行相应的改进和优化。最后,通过评估增强的教学计划,我们探索了使用 LLM 模拟和反思来提高教学计划质量的潜力。本研究解决了两个主要的研究问题:(1) LLM 能否通过模拟教学过程和产生反思来提高教学计划的质量?(2) 通过这种方法生成的教学计划在各种评估维度和不同的知识模块中表现如何?
 
在设计教学计划时,教师通常会设定教学目标、分析教学内容、选择教学方法、设计教学环境和活动,并考虑根据课程标准评估学生学习成果的方法21,22。这个过程反映了教师的内容知识 (CK) 和教学知识 (PK),以及他们有效整合它们的能力。这与教学内容知识 (PCK) 理论相对应,该理论强调教师将特定学科的知识转化为学生可访问和理解的形式23.此外,教师经常将预先设计的数学问题纳入他们的教学计划中,为学生提供构建知识和概念的机会24.精心设计的问题被组织成一系列相互关联的问题,形成一个数学问题链。这条链条将整个课程中的各种知识点联系起来,使学生能够逐步理解和掌握数学概念25。在我们之前的研究26 中,我们基于 PCK 理论27 将内容知识和教学知识纳入提示中,并使用数学问题链为 LLM 生成的教学计划建立了输出格式。随后,我们使用 GPT-4 为高中28 的所有数学课生成教学计划。此外,还开发了一个评估框架来全面评估生成的教学计划的质量。结果表明,GPT-4 生成的教学计划在建立教学目标、确定教学重点和挑战、设计教学活动和总结课堂教学知识等领域表现良好。然而,GPT-4 生成的教学计划与人类教师创建的高质量教学计划之间仍然存在差距。GPT-4 生成的教学计划在教学内容的深度、问题链的复杂程度、知识覆盖面的广度、差异化学习材料的设计、跨学科和学科文化的融合以及实用价值等方面仍有待改进。这些发现为利用 LLM 提高本研究中的教学计划质量提供了数据基础。
 
本研究的研究设计如图 1 所示。1. 在教学计划数据集构建阶段,我们以高中数学课程为例。高中数学课程的 21 章内容分为四个主要知识模块:统计、函数、代数和几何29,30。从每个模块中随机选择 15 节课,总共 60 节课。与这 60 节课相对应的教学计划被用作评价科目。我们首先构建了四个基线教学计划数据集,共包括 240 个教学计划,包括:(1) 数据集 A,源自我们之前的研究,其中使用 PCK 理论和数学问题链精心设计的提示指令来生成教学计划;(2) 数据集 B,由 GPT-4 使用未纳入数学问题链结构的提示直接生成的教学计划组成;(3) 数据集 C,来源于中国国家中小学智慧教育平台的高质量教学计划数据集,由具有十年以上教学经验的资深教师编写;(4) 数据集 G,由职前教师在为期两周的入职培训计划中编写的教学计划组成。
 
图 1:教学计划数据集的构建和评估。
图 1
该图说明了涉及三个主要阶段的过程:数据集构建、质量增强和有效性评估。在数据集构建阶段,创建了四个基线教学计划数据集(数据集 A、B、C 和 G),共包含 240 个教学计划。在质量提升阶段,该过程分为三个步骤。首先,法学硕士根据教学计划的内容模拟了师生之间的课堂互动。其次,法学硕士通过将教学计划与模拟课堂互动文本相结合来生成教学反思。第三,LLM 通过结合原始计划和生成的教学反思来完善教学计划。在此阶段获得了四个改进的教学计划数据集(数据集 D、E、F 和 H),共计 240 个教学计划。最后,在评价阶段,对 8 个教学计划数据集进行人工评估和对比分析。
 
全尺寸图像
在教学计划质量提升阶段,我们根据数据集 A 中的每个教学计划的内容,设计了提示说明并指导 GPT-4 模拟教师与不同能力水平的学生在教学过程中的互动,如图 1 所示。2. 接下来,我们指示 GPT-4 通过将数据集 A 中的原始教学计划与模拟的教学过程文本相结合来生成教学反思。随后,我们命令 GPT-4 通过整合生成的教学反思来改进原始教学计划,从而产生增强的教学计划数据集,即数据集 D。为了全面评估这种增强方法的有效性,我们在初始增强的基础上使用 GPT-4 进行了第二轮改进,产生了教学计划数据集 E。此外,我们用 Claude 3.5 Sonnet 模型替换了 GPT-4 模型,以改进数据集 A 中的教学计划,生成了教学计划数据集 F。此外,我们利用 GPT-4 来增强职前教师创建的教学计划,从而产生教学计划数据集 H。总共生成了四个增强的教学计划数据集,包括 240 个教学计划。在模拟教学过程、生成教学反思、完善原始教学计划的过程中,我们在提示说明中加入了每节课的相应知识点,以及原始教学计划中的教学目标和教学重点和挑战。此外,为了提高 LLM 设计的数学问题链的质量,我们在设计提示指令时改进了问题链的原始输出格式。我们没有采用标准化的通用问题链格式(例如,“问题链 1、问题链 2、问题链 3...”),而是将问题链分为三种类型:“基于上下文”、“基于陷阱”和“基于摘要”的问题链31。“基于上下文”的问题链要求 LLM 创建与课程知识点相关的场景和知识介绍问题,确保教学阶段的逻辑进展和连续性。“基于陷阱”的问题链是指由 LLM 设计的一系列问题,这些问题可能会导致学生出错,促进概念澄清,并带来重大挑战。最后,“基于摘要”的问题链涉及问题,这些问题指导学生复习和总结在课程中学到的知识,并激发他们对进一步学习的兴趣。
 
图 2:使用 GPT-4 改进教学计划的示例。
图 2
此图说明了 “Statistics” 知识模块中的过程,重点介绍有关 “Stratified Random Sampling” 的课程。它展示了 “解释新知识” 的教学阶段 “如何进行分层随机抽样”。利用 GPT-4,该图演示了如何使用原始教学计划内容来模拟师生互动对话,生成教学反思,以及随后的增强教学计划的内容。
 
全尺寸图像
最后,在教学计划评估阶段,我们对 8 个教学计划数据集进行了人工评分和分析。设计了一个评价框架,包括问题链、教学活动、内容知识、教学方法和策略、教学评价、跨学科性、实用价值、教学大纲以外的范围和总体评分等 9 大类和 19 个维度。采用李克特 8 分制量表进行人工评估。本文的“方法”部分将对每个评价维度的详细说明(见表 2)、评价者的基本信息、模拟教学过程和生成教学反思的提示指令设计以及评价数据集的详细构建进行深入讨论。据我们所知,这项研究是首次探索和评估 LLM 在提高教学计划质量方面的潜力。预计这将对教师在教学准备期间如何参与人类-人工智能协作教学设计以及职前教师如何在未来学习设计教学计划产生重大影响。
 
结果
跨评估维度的强化教学计划的描述性统计分析
我们首先对 16 个评估维度进行了描述性统计分析,使用 N = 480 个教学计划的总样本量。这包括改进前的 N = 240 个教学计划和增强后的 N = 240 个教学计划。每个维度的评估结果如图 1 所示。3.
 
图 3: 评估维度的平均值。
图 3
该图显示了 8 个教学计划数据集在 16 个评估维度上的平均分,每个数据集包含 N = 60 个样本。评估采用了 8 点李克特量表,其中 8 表示“非常同意”,1 表示“非常不同意”。评估维度包括问题链、教学活动、知识内容、教学方法和策略、教学评价、跨学科、实用价值、范围和总分这九大类,共 16 个评估标准。
 
全尺寸图像
从各个维度来看,强化教学计划在维度 Q1(为问题设计丰富的语境)中取得了超过 7.0 的平均分。在维度 Q2(设计顺序连贯且具有挑战性的学习任务)和 Q3(设计变体练习以巩固所学知识)中,平均分普遍高于 6.5。这表明法学硕士有效地利用了教学过程和教学反思,提高了教学计划的质量,进一步增强了问题链设计的有效性。然而,在维度 A1(设计促进师生互动的学习活动)中,与人类教师编写的高质量教学计划相比,增强的教学计划仍然不足。同时,维度 A2 (设计与教学目标相一致的教学活动)、C1 (准确解释和总结学科知识和概念)、C2 (提炼和总结课程内容)、M1 (选择合适的教学方法) 和 M2 (应用各种教学策略) 的平均分在 6.8 左右波动。这表明,优化后的教学计划在设计符合目标的教学活动、解释和总结学科知识、采用合适的教学方法等方面都有了显著的改进,达到甚至超过了人类教师编写的高质量教学计划的水平。值得注意的是,在维度 C3(学科历史和文化介绍)中,增强的教学计划优于人类教师制定的教学计划,Claude 模型显示出特别出色的效果。然而,平均分仍然低于 5 分,表明还有进一步探索和改进的空间。同样,在维度 D1(跨学科内容的设计)中,增强的教学计划也超过了人类教师的教学计划,经过两轮改进后观察到额外的改进。这表明,通过对教学过程的反思分析,法学硕士可以有效地利用他们的多学科知识来设计与学科文化和跨学科主题更紧密结合的学习内容。在维度 E1 和 E2 中,增强的教学计划在识别学生之间的差异和采用不同的评估方法方面显示出显着改进。在维度 R1(设计与课程知识范围相一致的内容)中,增强的教学计划达到了人类教师创建的高质量教学计划的水平。此外,由职前教师教学计划生成的强化教学计划的平均分超过 7 分。这表明本研究中提出的方法有效地解决了在以前的研究中观察到的问题,其中 LLM 生成的教学计划通常包含超出课程范围的内容。
 
从总分来看,在四个基线教学计划数据集中,GPT-4 直接生成的教学计划(数据集 B)在大多数维度上的平均分都低于职前教师在入职培训期间编写的教学计划(数据集 G)。然而,GPT-4 生成的带有集成数学问题链(数据集 A)的教学计划略优于职前教师编写的教学计划。增强后,与基线教学计划(数据集 A、B 和 G)相比,四个改进的教学计划数据集(数据集 D、E、F 和 H)在大多数维度上的平均分更高。其中,Claude 模型在一轮改进的教学计划(数据集 F)的平均得分约为 6.5,略低于模范人类教师编写的高质量教学计划(数据集 C)。相比之下,GPT-4 在一轮(数据集 D)中增强的教学计划得分略高于人类教师编写的高质量教学计划。值得注意的是,经过 GPT-4(数据集 E)的两轮改进,大多数维度的平均分都超过了高质量的人工编写的教学计划,有 12 个维度的平均分超过 6.8。重要的是,从职前教师的原始计划中得出并通过 GPT-4 模型(数据集 H)进行一轮改进的教学计划取得了徘徊在 7 左右的维度平均分,超过了由经验丰富的人类教师编写的高质量教学计划,与通过两轮 GPT-4 增强改进的教学计划的分数非常接近。
 
这些结果表明,GPT-4 在以前的研究中直接生成的教学计划效果较差,与其他研究的结果一致,即 LLM 生成的内容往往很广泛且缺乏深度32。然而,本研究中提出的方法有效地解决了这些问题。通过利用 LLM 来模拟教学过程并生成教学反思,然后整合这些见解来完善教学计划,这种方法在提高教学计划质量方面取得了相当大的成功。此外,由于缺乏教学经验,职前教师倾向于制定相对通用且缺乏特异性的教学计划。在包含数学问题链的提示的指导下,GPT-4 生成的教学计划质量有所提高,达到与职前教师编写的水平相当。然而,他们仍然没有达到模范教师制定的高质量教学计划。在此基础上,本研究中提出的方法的应用使教学计划的质量得到了显著提高,使其达到了与高质量教学计划相当的水平。此外,经过两轮改进后,教学计划的质量出现了适度的进一步改善。
 
有趣的是,职前教师编写的教案在经过法学硕士提升后表现出显著的进步,他们在维度 V1(实用价值)的分数甚至接近教学计划,经过两轮提升。分析这背后的原因,我们假设职前教师制定的教学计划本质上是为了满足实际课堂教学准备的实际需求而设计的。因此,LLM 对这些计划的第一轮改进更符合实际的教学准备要求。相比之下,两轮增强过程中使用的数据集 A 教学计划最初是由 LLM 自己生成的,因此仍然不同于基于实际教学准备需求设计的教学计划。经过两轮内容增强,尽管在大多数维度上都观察到了显著的改进,但改进后的教学计划是建立在“虚构的”教学计划之上和延伸的。相比之下,基于真实案例的法学硕士强化教学计划的结果显示出更大的实用价值,维度 V1(实用价值)的分数超过 7。这表明本研究中提出的方法具有相当大的适用性和实用性,为支持教师的教学设计提供了有价值的教学见解和参考。
[返回]

下一篇:临床医学中大型语言模型评价的系统评价