题目
面向人工智能辅助的大规模多项选择题生成和质量评估:与布鲁姆分类法保持一致
论文地址:https://arxiv.org/abs/2304.10513
摘要
在教育评估中,多项选择题 (MCQ) 因其评分和提供反馈的效率而被频繁使用。然而,手动生成 MCQ 遇到了挑战。依赖有限的问题集可能会导致项目重复,这可能会损害评估的可靠性和评估程序的安全性,尤其是在高风险评估中。本研究探索了一种由人工智能驱动的方法来创建和评估入门化学和生物学中的 MCQ。该方法包括通过 GPT-3.5 的零样本提示生成与布鲁姆分类法对齐的问题,使用 RoBERTa 验证问题与布鲁姆分类法的对齐——一种基于 transformer 架构的语言模型,采用自注意力机制来处理输入序列并生成给定句子中单个单词的上下文感知表示——使用项目写作缺陷 (IWF) 评估问题质量——在创建测试项目或问题时可能出现的问题——并使用主题专家验证问题。我们的研究表明,GPT-3.5 能够生成高阶思考问题,尤其是在“评估”层面。我们观察到 GPT 生成的问题与人类评估的复杂性一致,尽管偶尔存在差异。问题质量评估揭示了人类和机器评估之间的差异,与布鲁姆分类法水平呈反比。这些发现揭示了自动化问题生成和评估,展示了人工智能驱动的教育评估方法的进步潜力。
简介
多项选择题 (MCQ) 已成为教育领域一种有用的评估工具。它们的有效性在于其简单高效的评分能力,使教育工作者能够高效地评估许多答案。此外,MCQ 有助于即时反馈,这对于提高学习成果非常有价值,因为它使学生能够找出薄弱环节并及时改进。精心设计的 MCQ 具有评估不同层次布鲁姆分类学知识的卓越能力,该框架对学生用于学习的不同层次的认知技能和能力进行了分类,从而成为支持和提高学习成果的多功能工具。通过将问题与布鲁姆分类学的不同层次相结合,教师可以控制问题的认知深度,满足学生的不同学习需求并鼓励学习者进行批判性思维。
传统的生成和评估问题的方法通常需要大量的体力劳动,通常需要大量的人力投入和专业知识。此外,依赖有限的问题库可能会导致题目重复,从而可能破坏评估的可靠性和评估过程的安全性。这种限制带来了值得注意的困难,特别是在高风险评估场景中。虽然自动生成问题(特别是通过使用大型语言模型 (LLM))为简化问题创建过程提供了重要机会,但持续生成符合布鲁姆分类法的高质量 MCQ 的潜力仍是一个尚未被充分探索的领域。利用 LLM 的强大功能来精确定制 MCQ,以解决布鲁姆分类法定义的不同认知水平,为教育创新提供了一条有希望的途径。然而,它也带来了一系列独特的挑战和复杂性,例如保持问题质量、与学习目标保持一致、解决偏见和确保可扩展性。
在这项研究中,我们研究了在入门化学和生物学领域创建和评估 MCQ 的 AI 驱动过程。这个过程包括三个部分。首先,我们利用零样本提示生成与布鲁姆分类法相一致的问题,利用 GPT-3.5,重点关注学科内的上下文相关性。其次,我们使用自然语言处理 (NLP) 技术来评估这些问题的质量,评估它们与布鲁姆分类法的一致性以及对项目写作缺陷 (IWF)标准、指南和教育评估领域用于评估测试项目或问题质量的标准的遵守情况。第三,一位具有学科专业知识和教学见解的化学老师审查了其中的一部分问题。这一验证程序旨在弥合自动评估与人类标准之间的差距,确保生成的问题与各个分类级别相一致,并可在课堂上使用。
本研究旨在解决两个研究问题。RQ1 调查了 GPT-3.5 在多大程度上可以生成与提示的布鲁姆分类法级别相一致的问题,这些问题由机器学习模型和老师独立评估。 RQ2 探讨了通过专家判断验证与使用 IWF 标准的机器验证时 GPT-3.5 生成的问题的质量如何,并旨在辨别这两种验证方法之间的一致程度。这些研究问题指导了对使用先进的人工智能技术在教育评估中生成和验证高质量 MCQ 的有效性和可靠性的探究。
相关工作
先前在教育问题生成方面的研究已经证明了预训练语言模型 (PLM) 的多种应用。使用 GPT-3,以来自 OpenStax 生物学教科书的问答对为提示,生成 MCQ 和自由回答问题 (FRQ),这是一个值得注意的例子。他们使用困惑度分数(使用 GPT-2 计算)和语法错误来评估生成问题的质量。此外,他们还聘请了学科专家来确定生成的问题是否可以在课堂上使用。的另一项研究涉及使用从本科数据科学课程中提取的问题对 Google T5 进行微调,通过信息分数和 GPT-3 分类评估问题质量。同时,在斯坦福问答数据集 (SQuAD) 上对 Google T5 进行了微调,以生成问题答案对,并使用 T5 和 Sense2Vec 生成干扰项,即旨在“分散”正确答案的错误选项。但是,他们没有概述任何评估生成问题质量的尝试。 [2] 通过使用 S2ORC、SQuAD 和 SciQ 等数据集组合对 Google T5 进行微调,扩展了这种方法。他们使用 BLEU 分数和 F1 分数评估了一般问题的语言质量,并使用困惑度分数和多样性分数评估了问题的人类相似程度。他们表示,教师可以轻松地将人工智能生成的问题重新用于教育。这些方法共同强调了 PLM 在生成教育问题方面的多功能性和适应性,尽管没有特别关注与布鲁姆分类法的不同层次的一致性。值得注意的是,这些方法都没有探索广泛可用的 GPT-3.5 用于此目的的潜力。
鉴于现有的研究前景,我们的研究旨在解决有关教育问题生成的文献中的一个显着差距。虽然先前的研究已经证明了 PLM 在生成教育问题方面的实用性,但上述方法都没有专门针对问题与布鲁姆分类法的一致性。在我们全面的文献综述中,我们仅发现两种现有方法试图生成与布鲁姆分类法一致的问题。采用基于模板的问题生成系统,使用关键字识别和模式匹配根据与布鲁姆分类法一致的模板生成问题。在 InstructGPT 的提示工程中使用布鲁姆分类法作为上下文模板。
然而,第一种方法并没有在生成后验证布鲁姆分类法,因此缺乏关于其方法是否能够生成与布鲁姆分类法级别准确对应的问题的确凿证据。第二种方法虽然验证了布鲁姆分类法,但不使用 GPT-3.5,生成自由回答问题而不是 MCQ,也不使用 IWF 标准评估问题。我们的论文通过研究 GPT-3.5 生成与布鲁姆分类法特别相符的多项选择题的能力,提出了一项新颖的贡献,解决了这一研究空白,并深入了解了基于 NLP 的方法在以分类法为重点的教育问题生成方面的能力。
方法
问题生成策略 我们使用 OpenAI 的 GPT-3.5 模型生成问题。要访问 GPT-3.5,我们使用了 OpenAI Python 库中的“GPT-3.5-turbo”模型。在我们的提示中,请参阅 https://tinyurl.com/35am6sah 以获取模板,我们为 GPT-3.5 提供了所选问题的部分名称、关于主题的摘录以及描述布鲁姆分类法每个级别的小摘录。请参阅我们的提示模板的补充详细信息。我们要求 GPT-3.5 为布鲁姆分类法的每个级别创建五个 MCQ,每个 MCQ 都有一个正确答案和三个干扰项。
对于我们的问题集,我们根据大学水平的化学和生物学教科书(OpenStax 的化学 2e 和生物学 2e)生成问题。从每本教科书中,我们从两个随机选择的章节部分中提取所有文本,用作提示中的摘录。问题质量评估策略我们使用各种基于 NLP 的方法自动评估生成的问题的教育质量,以检测 MCQ 中常见的项目写作缺陷。我们的检测系统复制了基于 NLP 的 IWF 检测器。该系统根据 31 条项目写作指南检测出 19 个独特项目写作缺陷的子集。如果存在多个项目写作缺陷,则根据被认为是低质量的。
布鲁姆分类评估策略我们使用机器学习模型对问题的布鲁姆级别进行分类,以验证 GPT-3.5 是否在正确的布鲁姆级别上生成问题。我们的模型和数据集复制自,但我们在训练过程中向模型添加了回调以控制过度拟合。该模型的架构由 RoBERTa LLM、卷积神经网络和全连接层组成。他们的数据集来自四篇不同的论文,包含 2522 个标有 Bloom 级别的问题。我们将数据集分成两个分层集,一个用于训练(90% 的数据),一个用于测试(10% 的数据)。在训练期间,我们实现了两个回调:使用耐心设置为五个时期,耐心设置为七个时期时降低学习率。该模型在测试集上实现了 83.79% 的准确率和 83.69% 的加权 F1 分数。
图 1:显示 GPT 分类法与 ML 分类法(子图 a,包含 120 个样本)以及 GPT 分类法与人类分类法(子图 b,包含 57 个样本)在布鲁姆分类法中的对齐程度。条纹的宽度表示每个布鲁姆级别的匹配问题数量,从最低(“知识”)到最高(“评估”)排列。
人工评估我们聘请了一位拥有 28 年以上 STEM 教学经验的领域专家来评估生成的问题集并验证我们的自动评估系统。我们从生成的 120 个问题中随机抽取了 57 个问题作为人工评估者的一个子集。我们在数据中提供了问题、正确答案和三个干扰项。此外,我们还向他们提供了我们在生成所提供问题时使用的所有摘录以及每个摘录所来自的章节和部分的名称。仅使用提供的数据,他们被问及是否会在课堂环境中使用这些问题(是或否)、每个问题的 Bloom 级别以及每个问题是否与其各自的摘录相关(是或否)。
结果
RQ1:GPT-3.5 生成的问题在多大程度上与提示的布鲁姆分类法级别相一致,并由机器学习模型和人类老师独立评估?在本节中,我们将展示对 GPT-3.5 生成的问题的布鲁姆分类法级别的分析。我们将 GPT-3.5 被指示生成的级别(GPT 分类法)与机器学习模型预测的级别(ML 分类法)以及未被告知使用 GPT-3.5 的老师指定的级别(人类分类法)进行了比较。 图 1 是桑基图 [15],总结了上述定义的 GPT 分类法、ML 分类法和人类分类法之间的一致程度。子图 (a) 说明了 GPT 分类法和 ML 分类法之间的一致性。如图所示,根据 GPT3.5,80% 的“评估”级别的问题被机器学习模型归为同一级别,而 70% 的“综合”问题被归为“理解”。其余问题则按各自的级别分类。
“分析”级别的问题主要被 ML 模型分为“分析”(50%)和“理解”(40%)。“应用”级别的问题主要分为“综合”(35%)和“理解”(45%)。对于“理解”问题,50% 被归为同一级别,而 25% 被归为“知识”。根据 ML 模型,“知识”级别的问题分为“知识”(30%)和“理解”(45%)。总体而言,大多数错位发生在相邻级别之间。根据 ML 模型(即 ML-Taxonomy),“理解”级别占主导地位,这可能归因于我们相对不平衡的训练集,其中大多数问题(38%)都处于这一级别。子图 (b) 总结了 GPT 分类法和人类分类法之间的一致性。我们注意到高度一致,尤其是在知识、应用和综合层面。在 GPT-3.5 归类到这些级别的问题中,分别有 75%、78% 和 70% 的问题也被人类教师确定为处于同一级别。当存在不一致时,差异大多在 1 或 2 个级别内。例如,GPT-3.5 归类为“评估”的问题中约有一半被人类教师确定为处于“综合”级别。还值得注意的是,对于 GPT-3.5 归类为“应用”和“评估”的少数问题,人类评分者无法指定特定的级别。
RQ2:GPT 生成的问题在由人类教师验证(人类验证)和使用 IWF 标准进行机器验证(机器验证)时的质量如何,这两种验证方法在多大程度上相互一致?图 2 展示了 57 个 GPT-3.5 生成的问题的子集的质量评估结果,由人类教师(左图)和机器(右图)使用 IWF 标准进行评估。人类教师的评分是一个二元指标,用于确定给定的问题是否高质量,从而适合实际使用。同时,机器的评估依赖于 IWF 标准,如果问题满足至少 18 个 IWF 标准,则将其归类为高质量;否则,则被认为是低质量的。根据人工验证结果,57 个问题中只有 12 个被认为是高质量的,其中大多数来自理解和分析级别(根据 GPT-Taxonomy)。
图 2:显示 GPT 分类法与 ML 分类法(子图 a,包含 120 个样本)以及 GPT 分类法与人类分类法(子图 b,包含 57 个样本)在布鲁姆分类法中的对齐程度。条纹的宽度表示每个布鲁姆级别的匹配问题数量,从最低(“知识”)到最高(“评估”)排列。
IWF 筛选认为 24 个(42%)问题质量很高,其中相当一部分属于应用和理解层面。除了知识层面,布鲁姆分类学的水平和质量之间一般呈反比关系。随着分类学的进步,GPT-3.5 发现生成高质量问题变得越来越困难。例如,在评估级别,人类和机器都不太可能识别出高质量的问题。关于人机评估之间的一致性,存在显著差异,从 25%(分析级问题)到 90%(评估级问题)。
讨论
对研究问题 1 的分析揭示了 GPT-3.5 生成的问题与布鲁姆分类学水平的一致性,由机器学习模型(MLtaxonomy)和老师(Human-taxonomy)独立评估。这些发现为教育评估中自动问题生成的优势和局限性提供了宝贵的见解。5.1 GPT 分类法与 ML 分类法之间的一致性 RQ1 中的一致性分析揭示了 GPT-3.5 生成与预期的布鲁姆分类法级别一致的问题的潜力。特别令人鼓舞的是,在“评估”级别观察到了很强的一致性,这表明 GPT-3.5 能够生成需要高阶思维的问题。然而,一些不一致,尤其是在“综合”和“理解”等密切相关的层次之间的不一致,凸显了区分这些认知层次的复杂性。这些不一致凸显了 GPT-3.5 问题生成能力需要不断改进。
GPT 分类法与人类分类法之间的一致性 GPT 分类法与人类分类法之间的分析显示出显著的一致性,特别是在“知识”、“应用”和“综合”层面。这种一致性意味着 GPT-3.5 通常能够熟练地生成符合人类对问题复杂性的感知的问题。然而,偶尔出现的差异,例如 GPT-3.5 归类为“评估”的问题被老师评估为“综合”,表明在区分高阶认知水平方面还有改进的空间。此外,有些问题无法被人类老师分配到特定的级别,这表明在生成的问题子集中存在歧义。
高质量问题的分布研究问题 2 的考察侧重于通过两种不同的验证方法评估 GPT-3.5 生成的问题的质量:使用 IWF 标准的人工验证和机器验证。此外,本分析探讨了这两种验证方法之间的一致性。结果表明,根据人工验证,生成的问题中只有一小部分(57 个问题中的 12 个)被认为是高质量的。这些高质量问题主要出现在理解和分析层面,与 GPT-3.5 定义的布鲁姆分类法一致。 相比之下,机器使用 IWF 标准进行的评估将更大比例(24 个问题或 42%)确定为高质量,重点是应用和理解层面的问题。 这种差异凸显了人类判断和自动评估过程对问题质量的不同看法。
认知复杂性与问题质量一个有趣的观察是布鲁姆分类法级别与问题质量之间的反比关系。随着问题在分类法中不断上升,GPT-3.5 在生成高质量问题方面面临着更大的挑战。例如,在评估级别,人类和机器都发现识别高质量问题的可能性较小。这表明,更高的认知复杂性水平(例如评估和综合)给自动问题生成带来了更大的困难。
人机评估之间的一致性 人机评估之间的一致性在不同的认知水平上有所不同。 值得注意的是,评估级别的问题有相当高的一致性(90%),但随着认知复杂性的降低,这种一致性会降低。分析级别的问题表现出较低的一致性(25%),表明人类和机器评估者对其质量的看法存在更高的可变性。
结论
RQ1 的结果凸显了 GPT-3.5 作为生成与布鲁姆分类学级别相一致的问题的工具的潜力。它们强调了改进 GPT-3.5 的问题生成能力、解决认知水平差异的细微差别以及确保自动评估与教育环境中的人类标准和期望紧密一致的重要性。这些发现为进一步探索和增强人工智能驱动的教育评估问题生成铺平了道路。
RQ2 中的质量评估结果揭示了自动问题生成和质量评估的挑战和细微差别。人类教师和机器评估者之间的评估差异强调了需要采取一种平衡的方法,同时考虑这两种观点。认知复杂性和问题质量之间的反比关系凸显了在更高分类级别上生成高质量问题的复杂性。这些发现对于提高自动化系统生成教育内容的能力具有重要意义,强调了改进自动问题生成以更紧密地符合人类标准和期望的重要性。
在我们未来的工作中,我们将使用 LangChain 自动格式化 GPT 的响应来增强问题生成。此外,我们将使用 5 次少量学习,这是 Wang 等人认可的一种方法。我们将升级到 InstructGPT 或 GPT-4,以更好地与人类指导保持一致。为了改进问题质量的自动验证,我们将使用项目写作缺陷 (IWF) 特征创建一个 ML 模型,以更紧密地模仿人工验证。我们的布鲁姆分类模型将使用 GPT 生成的问题进行进一步微调,并使用 Mechanical Turk 的工作人员进行标记。我们将使用我们当前的评估系统评估问题,并通过困惑度和多样性分数评估语言质量,以及问题与特定语境的相关性。