题目
ChatGPT 是优秀的教师教练吗?测量零样本表现,为课堂教学评分并提供可操作的见解
论文地址:https://aclanthology.org/2023.bea-1.53/
项目地址:https://github.com/rosewang2008/zero-shot-teacher-feedback.
摘要
辅导是教师培训中广泛而基本的一部分,包括课堂观察和专家反馈。然而,由于资源有限和缺乏专业知识,大多数教师无法获得持续、高质量的辅导。我们探索生成式人工智能是否可以通过充当自动化教师教练,成为专家反馈的经济有效的补充。为此,我们为生成式人工智能提出了三项教师辅导任务:(A) 根据课堂观察工具对成绩单片段进行评分,(B) 找出良好教学策略的亮点和错失的机会,以及 (C) 提供可行的建议以激发更多学生的推理能力。我们招募了专业的数学教师来评估 ChatGPT 在小学数学课堂成绩单的每项任务中的零样本表现。我们的结果表明,ChatGPT 生成的响应与改进教学相关,但它们通常并不新颖或富有洞察力。例如,82% 的模型建议指向成绩单中教师已经在实施该建议的地方。我们的工作强调了为教师提供有见地、新颖和真实的反馈所面临的挑战,同时为未来研究解决这些障碍和提高生成式人工智能指导教师的能力铺平了道路。
课堂观察与辅导相结合,是国际上教师教育和专业发展的基石。在美国,教师通常会收到学校管理人员或教学教练的反馈,他们根据预先确定的标准和评分标准对教师进行评估。这些结构化评估通常涉及观察前和观察后的会议,观察员和教师在会上讨论教学策略并反思观察到的教学。尽管课堂观察被广泛采用,但由于时间和资源的限制、人的主观性以及观察员的专业水平不同,课堂观察在学校和不同的学习环境中缺乏一致性。反馈的频率和质量可能因学校或学习环境的不同而有很大差异,导致教师发展机会和学生成绩的差异。
先前的研究试图通过利用自然语言处理 (NLP) 为教师提供可扩展的自动化教学实践反馈,以弥补手动课堂观察的局限性。这些方法提供了教学的低级统计数据,例如课堂上使用的教学策略的频率——不同于辅导实践期间提供的高级可操作反馈。与低级统计数据相比,自动接收高级可操作反馈可能更容易让教师解释,而且这种反馈也与现有的辅导形式更加一致。NLP 的最新进展产生了像 ChatGPT 这样的模型,它们具有出色的少样本和零样本能力。ChatGPT 已应用于与教育相关的各种 NLP 任务,例如论文写作或协助解决数学问题,以及向学生提供论文反馈。沃尔顿家族基金会 (Walton Family Foundation) 的一项调查显示,40% 的教师每周使用 ChatGPT 进行课程规划和建立课程背景知识等任务。鉴于 ChatGPT 的潜力和教师日益增长的熟悉它后,我们对以下研究问题感兴趣:ChatGPT 能否通过提供有效的反馈来帮助教学教练和教师,例如生成课堂观察评分标准分数和有用的教学建议?为了回答这个问题,我们为生成式 AI 提出了以下教师辅导任务。任务 A. 为从课堂观察工具中得出的项目的成绩单片段评分任务 B. 确定良好教学策略的亮点和错失的机会任务 C. 提供可行的建议以引发更多学生推理
图 1:自动反馈任务的设置。我们的工作提出了三项教师辅导任务。任务 A 是为从课堂观察工具中得出的项目评分一份成绩单片段;例如,CLPC、CLBM 和 CLINSTD 是 CLASS 观察项目,而 EXPL、REMED、LANGIMP、SMQR 是 MQI 观察项目。
任务 B 是确定良好教学策略的亮点和错失的机会。任务 C 是提供可行的建议,以激发更多学生的推理能力。
我们通过图 1 中的过程评估了 ChatGPT 在每个任务上使用零样本提示的表现。我们使用 NCTE 数据集,这是一个包含小学数学课堂成绩单的大型数据集。数据由专家使用两种观察协议进行注释:课堂评估评分系统 (CLASS)和数学质量教学 (MQI)工具。我们提示 ChatGPT 对这些成绩单中的片段进行评分(任务 A),并针对从 CLASS 和 MQI 得出的项目确定亮点和错失的机会(任务 B)。最后,我们提示模型向老师生成建议,以在课堂上引发更多学生的数学推理(任务 C)。我们通过将模型的数值预测与 NCTE 数据中的评分者分数进行比较来评估 ChatGPT(任务 A)。我们还招募数学老师根据多项有用性标准(任务 B 和 C)对 ChatGPT 的回答进行评分。
我们发现 ChatGPT 在这三个任务中都有很大改进空间,但仍有望提供可扩展的高质量反馈。在预测分数时,即使添加了评分标准信息和推理,ChatGPT 与所有观察项目中的人工评分相关性也很低。在识别亮点和错失的机会时,ChatGPT 生成的响应通常没有洞察力(50-70%)或与两种工具的要求不相关(35-50%)。最后,ChatGPT 生成的大部分建议(82%)描述了老师已经在成绩单中做了什么。尽管如此,该模型确实生成了大多数可操作且忠实地解释教学内容的建议。我们相信,随着进一步发展,ChatGPT 可以成为教学教练和教师的宝贵工具。我们的工作为未来研究提供了一个令人兴奋的领域,以改进自动反馈系统的当前局限性。总之,我们做出以下贡献:我们(1)提出了三项教师辅导任务,生成式人工智能;(2)招募专家教师,根据小学数学课堂记录评估 ChatGPT 在这些任务上的零样本表现;(3)证明 ChatGPT 在某些方面很有用,但仍有很大的改进空间;最后(4)强调未来向教师提供有用反馈的方向。
相关工作
自动反馈给教育工作者。先前关于自动反馈工具的研究提供了学生参与度和进步的分析。这些工具使教师能够监控学生的学习情况并根据需要进行干预。最近的 NLP 进展能够为教师提供有关其课堂话语的反馈,促进自我反思和教学发展。例如,为教师提供有关其教学动作的反馈,例如教师复述学生想法的频率或教师要求学生大声推理的频率。提供的证据表明 K-12 数学教师对这种反馈持积极态度。类似的工具 M-Powering Teachers 为教师提供有关他们对学生想法的吸收情况的反馈,并在一对一学习环境中展示了有效性。和在线小组教学。总之,这些发现表明具有成本效益的自动化工具具有积极影响。它们促使人们进一步研究其他哪些类型的自动反馈是有效的。我们的工作是该领域的一次探索。
测试 ChatGPT 的零样本能力。最近的研究已经测量了 ChatGPT 在已建立的数据集和基准上进行注释的能力。例如,在非教育环境中,评估了 ChatGPT 对推文进行分类的零样本能力。是一项最近的教育工作,研究了 ChatGPT 为学生提供有关商业项目提案的零样本能力。但是,他们的研究仅使用单一的广泛提示来征求反馈,并且他们没有评估幻觉等常见模型问题。我们的工作提出了三个具体任务来为教师生成不同形式的反馈,我们的评估针对模型生成中的常见定性问题。有关 ChatGPT 的其他近期应用
我们在这项工作中使用了国家教师效能中心 (NCTE) 成绩单数据集,这是与课堂观察分数相关的美国课堂成绩单的最大公开数据集。该数据集由 NCTE 在 2010-2013 年间收集的 1,660 个 45-60 分钟长的 4 年级和 5 年级小学数学观察结果组成。这些记录是匿名的,代表了 4 个学区的 317 名教师的数据,这些学区主要为历史上被边缘化的学生提供服务。记录来自视频录制,由专家评分员在 NCTE 数据收集时使用两种工具对其进行评分:课堂评估评分系统 (CLASS)和数学质量教学 (MQI)工具。我们评估了 ChatGPT 预测这两种工具分数的能力,如下所述。
数据集
CLASS 工具。CLASS 是一种观察工具,可从三个主要维度评估 PK-12 课堂的课堂质量:情感支持、课堂组织和教学支持。每个维度都由多个观察项目来衡量;我们从每个维度中选择一个项目来提供概念验证。对于情感支持,我们关注积极氛围 (CLPC) 项目,该项目衡量教师与学生之间以及学生与同龄人之间的乐趣和情感联系。对于课堂组织,我们关注行为管理 (CLBM) 项目,该项目衡量教师如何鼓励积极行为以及监控、预防和纠正不当行为。最后,对于教学支持,我们关注教学对话 (CLINSTD) 维度,该项目衡量教师如何使用结构化、累积性的提问和讨论来引导和促进学生对内容的理解。每个项目的评分范围为 1-7,其中 1 为低,7 为高。所有项目的评分均基于 15 分钟的笔录片段,这通常约占整个课堂时长的三分之一或四分之一。
MQI 工具。MQI 观察工具评估教学的数学质量,从四个维度描述课堂中数学的严谨性和丰富性:数学丰富性、与学生合作和数学、错误和不精确性以及学生参与意义构建和推理。与 CLASS 类似,每个维度都由几个观察项目测量,我们从每个项目中选择一个。对于数学丰富性,我们关注解释 (EXPL) 维度,该维度评估教师数学解释的质量。对于与学生合作和数学,我们关注学生错误和困难的补救 (REMED),该维度衡量教师补救学生错误和困难的程度。对于错误和不精确性,我们关注语言或符号的不精确性 (LANGIMP) 维度,该维度衡量教师在数学语言或符号方面的不精确性。最后,对于学生参与意义建构和推理,我们关注学生数学提问和推理 (SMQR) 维度,该维度衡量学生参与数学思维的情况。这些项目按 1-3 的等级评分,其中 1 为低,3 为高。它们是在 7.5 分钟的成绩单片段上评分的,这通常是整个课堂时长的七分之一或八分之一。
预处理成绩单选择。由于教室噪音和远场音频,学生谈话中经常包含标记为“[听不清]”的听不清的谈话。在初步实验中,我们注意到当学生的转录中存在“[听不清]”时,ChatGPT 经常会过度解释课堂事件。例如,该模型将转录行“学生:[听不清]”误解为“学生的回答听不清,这可能会让他们感到被忽视或不重要。”或者“软糖,香蕉,香草,草莓,香蕉,香草,香蕉,[听不清]。[…]”这句话,因为老师允许学生互相交谈并打断课程。为了减少模型过度解释课堂事件的发生,并最好地评估模型提供反馈的能力,我们只考虑学生贡献中少于 10% 包含“[听不清]”标记的成绩单。因为这些成绩单很长,而且记录下来成本很高在所有转录本上评估 ChatGPT,我们随机挑选 10 个用于 CLASS 工具,10 个用于 MQI 工具。
转录本分段。CLASS 观察工具适用于 15 分钟的片段,MQI 适用于 7.5 分钟的片段。每个转录本都有 CLASS 片段和 MQI 片段总数的注释。我们通过将话语分组到大小相等的箱中,将每个转录本分成多个片段。例如,如果一份转录本有 3 个 CLASS 片段和 300 个话语,则每个片段将有 100 个话语。片段格式。在定量任务 A 实验中,转录本片段中的每个话语都格式化为:“: ”。 是老师或学生, 是说话者的话语。在我们的定性任务 B 和 C 实验中,我们用数字标记每个话语。话语的格式为:“<话语编号>. <说话者>: <话语>”。我们在定性实验中使用话语编号,因为我们的提示要求模型在提供特定反馈时识别话语。相比之下,定量实验则整体评估整个转录片段。
方法
我们通过 OpenAI API 使用 gpt-3.5-turbo 模型,该模型为 ChatGPT 提供支持。我们使用温度 0 进行解码。我们在研究中采用零样本提示有三个原因。首先,转录片段很长,带注释的示例片段的长度将超过最大输入大小。其次,零样本提示最接近教师与 ChatGPT 互动的当前方式。第三,我们有兴趣评估 ChatGPT 的现成功能,而无需进行额外的调整。任务 A:评分记录。我们零样本提示 ChatGPT 根据 CLASS 和 MQI 评分标准预测观察分数。我们采用三种提示技术:(1) 提示直接预测分数,用 1-2 句总结题目(直接回答,DA)图 6 中的 CLBM,(2) 与 DA 相同,但对低/中/高评分增加了一个句子描述(直接回答并附上描述,DA+);(3) 与 DA 相同,要求模型在预测分数之前提供推理(先推理再回答,RA)。RA 遵循最近关于 LLM 提示推理的文献,其中模型受益于在数学领域增加的推理(Wei et al, 2022,除其他外)。所有项目描述均来自原始观察手册,经过压缩以适合模型的上下文窗口,同时考虑到转录段占用的空间。对于所有提示,模型都正确输出每个观察工具的分数范围内的整数值。
任务 B:识别亮点和错失的机会。我们零样本提示 ChatGPT 识别并详细说明 CLASS 和 MQI 项目的亮点和错失的机会。具体来说,我们提示 ChatGPT 识别每个维度的 5 个好例子和坏例子(即错失的机会或执行不力)。提示包括编号的成绩单句子,并要求模型在解释示例之前指出行号。 有关提示和模型输出的示例,请参见图 2。 任务 C:提供可行的建议以引出学生的推理。我们零样本提示 ChatGPT 为老师提供可行的建议,以在课堂上引出更多的学生数学推理。这项任务是开放式的:我们只是要求模型为老师提供 5 条建议,以在课堂上引出更多的学生推理。我们为模型提供了学生推理的定义。提示包括编号的成绩单句子,并要求模型在解释示例之前指出行号。我们使用 MQI 成绩单片段,因为它们更短并且更有可能适合模型的上下文窗口。有关提示和模型输出的示例,请参见图 3。
图 2:顶部框显示了任务 B 的示例,用于识别教师行为管理 (CLBM) 中的亮点和错失的机会。底部框显示了模型的输出。由于篇幅原因,本例中省略了提示和代数,以 […] 表示。
我们描述了用于回答每个研究问题的分析方法。 任务 A. NCTE 成绩单数据集包含来自人工注释者的 CLASS 和 MQI 分数。 我们将 ChatGPT 的预测与人类注释者的分数进行比较。我们从处理后的数据集中随机挑选了 100 个转录片段 (rf.3.1 节)进行评估。我们计算 Spearman 相关性来衡量模型预测与人工评分的对应程度。我们还通过直方图比较了人工评分与模型评分的分布,以了解ChatGPT 非常适合这项任务
图 3:任务 C 的示例,用于提供在课堂上激发学生更多数学推理能力的建议。模型的输出以斜体显示。由于篇幅原因,本例中将提示和代数缩写,以 […] 表示。
任务 B。我们随机挑选 10 个转录片段,并提示模型识别 CLASS 和 MQI 中每个观察项目的亮点和错失的机会。我们随机选择两个亮点和两个错失的机会进行评估。结果为 216 个 CLASS 示例(= 18 个片段 ×3 个 CLASS 代码 ×(2 个亮点 +2 个错失的机会))和 288 个 MQI 示例(= 18 个片段 ×4 个 MQI 代码 ×(2 个亮点 +2 个错失的机会))。我们招募了两名数学老师来评估模型的输出:其中一名老师拥有数十年的教学教练经验,另一名老师在 Title 1 公立学校拥有 6 年的数学教学经验。示例在老师之间平均分配。
要求老师根据三个标准对每个示例进行评分,这些标准是我们根据初步实验(例如观察到的幻觉)和咨询老师确定的。
- 相关性:模型的响应是否与感兴趣的 CLASS 或 MQI 项目相关?
- 忠实度:模型的响应是否对课堂记录中发生的事件有准确的解释?
- 洞察力:模型的响应是否揭示了超越对记录中发生的事情的逐字重述的洞察力?每个标准都按 3 分量表(是、有点、否)进行评估,并带有可选评论。有关实验设置和评分者间比较的更多详细信息,请参阅附录 B。
任务 C。我们以与任务 B 类似的方式评估此任务,只是标准略有变化。我们使用来自任务 B 的 18 个记录片段提示模型,以生成引发更多学生推理的建议。我们随机抽取每个片段 2 个建议,得到 36 个示例。示例在注释者之间平均分配。我们使用以下评估标准:1. 相关性:模型的响应是否与引发更多学生推理相关?2. 忠实度:模型的响应是否对课堂记录中发生的事件有正确的解释? 3. 可操作性:模型的建议是否是教师可以轻松转化为实践以改进教学或鼓励学生进行数学推理的东西? 4. 新颖性:模型建议的是教师已经做过的事情还是新颖的建议?请注意,实验界面询问关于“冗余”;我们在这里反转评级,以保证标准间的一致性(更高=更好)。与上一节类似,我们要求教师以 3 分制(是、有点、否)进行评估,并提供可选评论。
结果与讨论
;表 1:CLASS 维度(上表)和 MQI 维度(下表)上人类评分与模型预测之间的 Spearman 相关值。列表示不同的维度,行表示第 4 节中讨论的不同提示方法。
任务 A:评分成绩单。ChatGPT 在 MQI 和 CLASS 项目的评分成绩单方面表现不佳。表 1 报告了 Spearman 相关值,图 4 报告了分数分布。附录 C 包含其他图表,包括人类与模型分数分布的比较。至于 CLASS,我们在所有提示方法中都发现了两个一致的结果。首先,该模型倾向于在所有 CLASS 维度上预测比人类评分更高的值,并且它在 CLBM 上表现最佳。我们假设 CLBM 可能更容易预测,因为 (i) 它是唯一一个分布偏向更高值的项目,并且 (ii) 因为评分行为管理需要最少的教学专业知识。有趣的是,在提示中添加更多信息(如按分数描述(DA+)或允许推理(RA))并没有提高相关性分数——在某些情况下会使分数变得更糟,例如 CLBM。
至于 MQI,对于除 REMED 之外的所有维度,模型倾向于预测中间分数(3 分中的 2 分);这一观察结果在所有提示方法中都是一致的。这一发现的另一种解释与 CLASS 结果(7 分制)一致,即模型倾向于预测第二高的评分。我们没有足够的数据来解开这两种解释。对于 REMED,模型通常会预测最高评分(图 4)。与 CLASS 中的观察结果类似,添加更多信息或推理对模型没有帮助。该模型似乎比其他项目更能理解 SMQR,但随着信息和推理的增加,其相关性会降低。总而言之,模型倾向于对同一 MQI 或 CLASS 项目预测相同的分数,这表明预测分数取决于维度描述,而不是成绩单证据或提示方法。
任务 B:识别亮点和错失的机会。图 5a 总结了 CLASS 工具的模型响应评级,图 5b 总结了 MQI 工具的模型响应评级。教师通常认为模型响应没有洞察力或与这两个工具的要求不相关。幻觉,按忠实度评定,并不是三个维度中最成问题的维度。尽管如此,它出现在相当多的模型响应中——大约 20-30% 的模型响应被标记为对课堂成绩单的解释不忠实。有趣的是,MQI 结果在所有评估维度上都比 CLASS 结果差。具体而言,从 CLASS→MQI 开始,每个维度上的“否”比例都在增加:忠实度低的分数增加 22 → 29% (+7),相关度增加 35 → 55% (+20),有见地的分数增加 51 → 71% (+20)。这表明该模型在解释和评估数学教学质量的技术方面表现相对较差。附录 C 包含其他图表,包括评分者之间的 Cohen 卡帕值。任务 C:提供可行的建议以引发学生的推理。图 5c 总结了对模型建议的评分。最明显的观察是,该模型倾向于产生多余的建议(与新颖性相反),82% 的时间重复老师在成绩单中已经做过的事情。尽管如此,大多数模型响应被评为忠实于成绩单背景、与引发更多学生推理相关并且可供老师实施。
&ensp任务 B 和 C 的结果可以通过 ChatGPT 不太可能看到考试这一事实来解释由于该领域公开数据稀缺,它无法在训练过程中学习大量教学反馈,更不用说教师指导的例子了。因此,它只学会了重现文本中已经观察到的模式,而不能提出开箱即用的专家建议。