题目
GPT-4 Turbo 根据布鲁姆修订分类法从教科书中生成学校级问题的效果如何?
论文地址:https://arxiv.org/abs/2406.15211
摘要
我们评估了 GPT-4 Turbo 在零样本模式下从 NCERT 教科书中生成教育问题的有效性。我们的研究强调了 GPT-4 Turbo 生成需要高阶思维技能的问题的能力,尤其是在根据布鲁姆修订分类法的“理解”层面。虽然我们发现 GPT-4 Turbo 生成的问题与人类评估的问题在复杂性方面存在显著的一致性,但偶尔也存在差异。我们的评估还揭示了人类和机器评估问题质量的方式存在差异,其趋势与布鲁姆修订分类法水平成反比。这些发现表明,虽然 GPT-4 Turbo 是一种很有前途的教育问题生成工具,但其功效在不同的认知水平上有所不同,表明需要进一步改进才能完全满足教育标准。
CCS 概念 • 应用计算 → 教育。
关键词 自动问题生成 (AQG)、大型语言模型 (LLM)、布鲁姆修订分类法、GPT ACM 参考格式:Subhankar Maity、Aniket Deroy 和 Sudeshna Sarkar。2024. GPT-4 Turbo 在基于布鲁姆修订分类法从教科书生成学校级问题方面有多有效?在。ACM,纽约,纽约州,美国,5 页。https://doi.org/10.1145/nnnnnnn.nnnnnnn
简介
在教育领域,设计高质量的问题是教育工作者努力培养学生深刻理解和批判性思维的关键任务。问题是学习评估的基石,是衡量理解、回忆、应用、分析、评价和创造的门户,本质上反映了布鲁姆修订分类法中概述的不同认知技能水平。此分类法 为教育工作者提供了一个结构化的框架,用于对学习目标的深度和复杂性进行分类和评估,使他们能够定制教学策略以满足学习者的不同需求。然而,手动的问题设计过程对教育工作者来说往往是艰巨而耗时的,需要对细节一丝不苟地关注并深入了解教学原则。
近年来,在人工智能 (AI) 和自然语言处理 (NLP) 进步的推动下,自动问题生成 (AQG) 的出现有望彻底改变教育的这一基本方面。大型语言模型 (LLM),例如 GPT-4 Turbo,已展示出在各个领域生成类似人类的文本和响应的卓越能力。利用这些 LLM 驱动的技术,教育工作者可以简化问题创建过程,从而腾出宝贵的时间专注于教学传授和学生参与。
在这项研究中,我们开始探索 LLM 驱动的方法在学校教育背景下生成和评估问题的有效性。为此,我们使用 GPT-4 Turbo 的零样本提示从国家教育研究和培训委员会 (NCERT)1 教科书的选定章节中生成问题,评估问题与布鲁姆修订分类法的一致性。我们专注于历史、地理、经济学、环境研究和科学等学科,从 6 𝑡ℎ 到 12𝑡ℎ 标准,采用多方面的方法来实现我们的研究目标。
我们的方法包含三个关键组成部分。
- 我们利用 GPT-4 Turbo 在零样本模式下的功能来刺激与布鲁姆修订分类法相对应的教育问题的创建,重点是确保特定研究领域的语境适当性。
- 我们利用先进的 NLP 方法来评估所生成问题的质量,检查它们与布鲁姆修订分类法的兼容性以及它们与项目写作缺陷 (IWF) 标准的一致性——这是一套被广泛认可的教育评估指南。
- 为了缩小自动评估与人类期望之间的差距,生成的问题子集会接受具有专业知识和教学见解的学校级教师的严格审查。
这项工作旨在调查这两个研究问题 (RQ)。
- RQ1:GPT-4 Turbo 生成与布鲁姆修订版 1 的各个级别相符的问题的能力如何?分类法,由机器学习模型和教育工作者分别评估?
- RQ2:在评估 GPT-4 Turbo 生成的问题质量时,人类专家(即人工验证)和使用 IWF 标准的机器验证(即机器验证)如何比较,这两种验证方法之间存在何种程度的一致性?这些 RQ 指导我们调查使用高级 LLM 生成和验证教育评估中高质量问题的有效性和可靠性。
相关工作
问题生成 (QG) 的最新研究重点是利用基于转换器的大型语言模型 (LLM)。这些 LLM 深深植根于机器学习,在大型数据集上进行了广泛的训练,以增强其生成文本的能力。在 QG 探索中采用这种方法的理由主要源于与以前的基于规则和替代系统相比,它在性能上有了显着的进步。在基于 Transformer 的 LLM 的训练过程中,典型目标是预测下一个 token,从而使这些模型能够预测初始输入文本的可能延续。最近的进展见证了强化学习与 LLM 训练方法的整合,例如本文讨论的实验中使用的 GPT-4 Turbo。通过强化学习进行微调,在人工反馈的指导下,使这些 LLM 能够超越其前辈。
与 LLM 的传统训练目标(涉及预测下一个 token)一致,QG 中不断发展的方法需要向 LLM 提供文本输入(称为提示)以生成补全。制作这样的提示以引出期望的输出可能具有挑战性,从而导致了一个名为提示工程的新研究领域的出现。提示工程中一种流行的方法是将字符串添加到提供给 LLM 以生成的上下文中,称为前缀式提示。例如,假设有一位生命科学讲师,他的目标是生成与光合作用相关的问题。他们可能采取的一种直接方法是向 LLM 提出以下输入:“生成一个关于光合作用的问题”。为了提高所生成问题的精确度,讲师可以提供额外的背景信息。
例如,他们可以制定一个包含教科书摘录的提示,重点介绍光合作用的特定方面,而不是一般提示,例如:“给定上下文 ,生成一个问题”。为了对生成过程施加更大的影响,教师的输入可以包含一个控制组件——一个指导生成的关键字。例如,他们可能会向 LLM 提出以下提示:“根据给定的上下文 以及正确答案和三个干扰项生成多项选择题”。
提示工程的另一个方面是将说明所需输出格式和样式的示例直接集成到提示中。这种方法通常称为小样本学习,通常由指令、多个示例和分配的任务组成。这些示例旨在让 LLM 熟悉新的环境,而无需进一步训练或微调。尝试了各种提示策略来增强教育问题的生成。他们的研究表明,利用较短的输入上下文和采用少样本学习可以产生更高质量的候选问题。他们特别关注 GPT-2 模型,并利用 SQuAD 数据集和 OpenStax 教科书进行实验。使用 OpenStax 大学代数教科书作为参考探索了 AQG。他们研究了 ChatGPT,特别是使用零样本提示来促进生成过程。他们在实验中使用的零样本提示是:“请根据本教科书章节生成 20 道练习题”。
以前的方法没有对布鲁姆修订分类法进行后代验证,因此缺乏关于其方法在生成与布鲁姆修订分类法级别准确一致的问题方面的有效性的确凿证据。此外,缺乏对使用 GPT-4 Turbo 根据布鲁姆修订分类法生成教育问题的探索,上述研究中也没有使用 IWF 标准对问题进行评估。
数据集
在本研究中,我们使用了引入的 EduProbe 数据集,该数据集源自 NCERT 教科书。这些教科书涵盖了历史、地理、经济学、环境研究和科学等各个学科,年级从 6 年级到 12 年级不等。在我们的实验中,我们从这个数据集中提取了 1,005 个 <Context, Question> 对。
方法论
布鲁姆修订的分类法帮助教育工作者根据特定的学习目标制定教育问题。在这种方法中,我们专注于生成与布鲁姆修订分类法相一致的问题,布鲁姆修订分类法是一种将认知技能分为记忆、理解、应用、分析、评估和创造的分层框架。我们采用零样本学习方法,设计提示来引出与布鲁姆修订分类法的每个认知水平相对应的问题。然后用零样本提示提示 GPT-4 Turbo(如图 1 所示),并评估生成的问题是否与布鲁姆修订分类法一致。我们不是按顺序生成一个问题及其分类级别,而是同时生成与特定上下文相关的所有六个问题,如图 1 所示。
评估
我们采用了各种基于 NLP 的方法,通过检测生成问题中常见的项目写作缺陷来自动评估生成问题的教育质量。检测系统复制了中描述的 IWF 检测器。 评估布鲁姆修订分类法的策略 我们实现了中描述的机器学习 (ML) 模型,根据布鲁姆修订分类法对问题进行分类,确保 GPT-4 Turbo 准确地生成正确布鲁姆修订分类法级别的问题。训练数据集涵盖了各个学科的问题,例如自然科学(例如生物学和物理学)和社会科学(例如经济学、历史和社会学)。它旨在反映高中和大学课程中常见的内容。
我们将数据集分为 85% 用于训练,15% 用于测试。 该模型在测试集上获得了 87.89% 的准确率和 85.59% 的加权 F1 分数。人工评估我们为五个学科招募了五位拥有 20 多年教学经验的专家来审查生成的问题并验证自动评估系统。每位专家从 150 个问题中随机审查了 60 个问题,以及用于创建这些问题的上下文。他们被要求确定是否会在课堂上使用生成的问题(即是/否),确定每个问题的布鲁姆修订分类法级别,并评估这些问题是否与各自的上下文相关(即是/否)[9]。
结果
RQ1:机器学习模型和教育工作者分别评估 GPT-4 Turbo 生成与布鲁姆修订分类法各个级别相符的问题的能力如何?在本节中,我们分析了 GPT-4 Turbo 生成的问题的布鲁姆修订的分类级别。我们将 GPT-4 Turbo 确定的生成级别(称为 GPT-4Taxonomy)与 ML 模型预测的级别(称为 MLTaxonomy)以及学校老师分配的级别(称为 Human-Taxonomy)进行比较。图 2 展示了一个桑基图,它表示 GPT-4-Taxonomy、ML-Taxonomy 和 Human-Taxonomy 之间的对应程度。
子图 (a) 具体显示了 GPT4-Taxonomy 和 ML-Taxonomy 之间的一致性。值得注意的是,GPT-4 Turbo 分类为“理解”的问题中有 82% 也被 ML 模型归类为同一级别,而 79% 的“记忆”问题和 65% 的“创造”问题与 ML 模型的分类类似。然而,分类为“应用”的问题主要被 ML 模型分为“应用”(52%)和“分析”(35%),“分析”级别的问题主要被分类为“应用”(35%)和“评估”(45%)。
对于“评估”问题,40% 被归类为同一级别,而 40% 的问题被 ML 模型归类为“分析”。ML 模型(即 ML-Taxonomy)主要将问题分配到“理解”和“记忆”级别,这可能是由于训练集相对不平衡,其中大多数问题(37%)都处于这些级别。GPT-4-Taxonomy 和 Human-Taxonomy 之间的一致性在子图 (b)(图 2)中描述。一致性程度显著,尤其是在理解、记忆和创造层面。具体来说,GPT-4 Turbo 归类为这些级别下的问题中,69%、67% 和 65% 的问题被老师进行了类似的分类。例如,GPT-4 Turbo 标记为“分析”的问题中,约 50% 被老师评为“评估”。
此外,值得一提的是,人类评分者无法为 GPT-4 Turbo 最初归类为“应用”和“分析”的几个问题(即未知)分配特定的级别。RQ2:人类专家(即人工验证)和使用 IWF 标准的机器验证(即机器验证)在评估 GPT-4 Turbo 生成的问题质量方面如何比较,这两种验证方法之间存在什么程度的一致性?图 3 展示了 GPT-4 Turbo 生成的 60 个问题子集的质量评估结果。这些问题由人类教师(如子图 (a) 所示)和机器(如子图 (b) 所示)使用 IWF 标准进行评估。教师的评估是二元的,确定问题是否高质量且适合实际使用。相比之下,如果问题至少满足九项 IWF 标准,机器的评估就会认为该问题具有高标准 [5];否则,则被视为低质量。根据人工评估,60 个问题中只有 13 个被判定为高质量,主要基于“理解”和“记忆”认知水平(根据 GPT-4-Taxonomy)。然而,IWF 标准将 27 个问题(45%)归类为高质量,其中很大一部分也来自“理解”和“记忆”认知水平。在评估层面,人类和机器评估都很难识别高质量的问题。人类和机器评估之间的一致性差异很大,从分析级别问题的 35% 到评估级别问题的 85% 不等。
分析
RQ1 的调查提供了对 GPT-4 Turbo 生成的问题与布鲁姆修订分类法级别之间的相关性的洞察,由 ML 模型(即 ML-Taxonomy)和学校教师(即 Human-Taxonomy)分别评估。结果阐明了在教育评估中使用 AQG 的优势和局限性。RQ1 中的评估证明了 GPT-4 Turbo 能够创建符合所需布鲁姆修订分类法级别的问题。特别是,观察到了显著的一致性,特别是在“理解”级别,这表明 GPT-4 Turbo 能够熟练地生成需要高阶认知技能的问题。然而,某些差异,特别是在“分析”和“评估”等紧密相关的级别之间,凸显了区分这些认知的挑战级别。这些不一致之处强调了持续改进 GPT-4 Turbo 问题生成能力的必要性。
GPT-4-Taxonomy 和 Human-Taxonomy 的比较表明,它们之间存在相当大的一致性,尤其是在“理解”、“记忆”和“创造”级别上。这种对应关系表明,GPT-4 Turbo 通常擅长生成符合人类对其复杂性的看法的问题。然而,偶尔也存在差异,例如 GPT-4 Turbo 归类为“分析”的问题被老师归类为“评估”,这突出了在区分高阶认知水平方面有所改进可能会有益的领域。此外,有些问题对于老师来说很难进行明确的分类,这表明在生成的问题子集中存在歧义。RQ2 的调查围绕使用两种验证方法评估 GPT-4 Turbo 生成的问题的标准展开:采用 IWF 标准的人工验证和机器验证。此外,本研究探讨了这些验证方法之间的相关性。调查结果表明,根据人工验证,生成的问题中只有一小部分(具体为 60 个问题中的 13 个)符合高标准。
这些问题主要涉及“理解”和“记忆”级别,与 GPT-4 Turbo 建议的布鲁姆修订分类法一致。相反,使用 IWF 标准的机器评估将更大比例(27 个问题或 45%)确定为高质量,其中“理解”和“记忆”认知水平的问题尤为突出。一个有趣的发现是,布鲁姆修订分类法的水平与问题质量之间存在反向关系。GPT4 Turbo 在生成高质量问题方面面临越来越大的障碍。例如,在“评估”级别,人类教师和机器都更难以确定质量卓越的问题。这表明,更高级别的认知复杂性,如“分析”和“评估”,对 AQG 提出了更艰巨的障碍。
结论和未来工作
RQ1 的结果表明,GPT-4 Turbo 可以生成与布鲁姆修订分类法级别相对应的问题。他们强调需要增强 GPT-4 Turbo 的问题生成能力,解决认知水平差异的细微差别,并确保在教育环境中与人类标准保持一致。这些结果为进一步探索 LLM 驱动的 AQG 用于教育评估目的奠定了基础。此外,RQ2 的结果揭示了 AQG 和质量评估的复杂性,突出了人类教师和机器评估之间的差异。这强调了考虑两种观点的整体方法的重要性。观察到的认知复杂性和问题质量之间的负相关性凸显了在更高级的分类学水平上制作优质问题的难度。这些见解表明了改进自动化系统的方法,使其更好地满足人类在创建教育内容方面的标准和期望。
我们打算采用引入的八次学习方法,以提高生成问题的质量。我们旨在通过构建一个利用 IWF 特征的 ML 模型来改进问题质量的自动验证,旨在更接近人工验证。此外,我们计划利用 GPT-4-Turbo 生成的问题进一步完善 Bloom 的修订分类模型,并在 Mechanical Turk 工作人员的帮助下进行注释。问题的评估将使用我们现有的评估框架,结合语言质量指标(例如困惑度和多样性分数)以及考虑问题在特定语境中的相关性来进行。