Bootstrap

Debatrix:基于大型语言模型的多角度辩论评审系统

人工智能咨询培训老师叶梓 转载标明出处

在辩论比赛中,评判辩论并非易事,它涉及到对长篇文本的理解、复杂论证关系的把握以及多维度的评估。然而,现有的研究多集中于短对话,鲜少关注对整个辩论过程的评价。本文提出了一个名为Debatrix的系统,它利用大型语言模型(LLMs)进行多轮辩论的分析和评估,以更好地符合多数人的偏好。

基于大型语言模型(LLM)的辩论裁判正在评判Alice和Bob之间的辩论
图中的紫色泡泡表示LLM需要理解论点以及它们是如何相互反驳的;橙色泡泡表示LLM还需要在多个维度上评估演讲

框架

Debatrix的总体结构,包括它如何通过记忆和裁判组件来处理辩论评判

Debatrix系统的设计被分解为两个主要组件:记忆(Memories)和评判(Judges)。

记忆(Memories):记忆系统提供辩论评判过程中的长期存储功能,分为两种类型:上下文记忆(context memory)记录传入的演讲上下文,分析记忆(analysis memory)存储中间分析结果。每个传入的演讲首先被添加到上下文记忆中,然后由演讲评判员(speech judge)进行分析。

评判(Judges):评判是系统的核心组件,包括演讲评判员、辩论者评判员和胜者评判员。演讲评判员分析演讲流,并使用记忆来理解演讲内容;分析结果被添加到记忆中,并可用于生成评判。辩论者和胜者评判员在所有演讲处理完毕后工作,它们使用演讲评判员过去的分析来分别生成辩论者评判和胜者裁决。

Debatrix采用迭代时间分析方法,专门设计用于解析长篇多轮辩论。该方法的关键是迭代的演讲分析过程,其中包括:

  • 分解演讲内容,例如论证如何相互作用、引入哪些证据来支持论证,以及演讲展示的语言风格。
  • 通过迭代分析,LLM可以一次集中关注一个演讲,并通过记忆系统更有效地理解上下文。每次演讲分析后,都会在分析记忆中生成反馈或决策。
  • 在辩论结束时,辩论者和胜者评判员将利用整个内容分析列表来评判特定辩论者或比较辩论者之间的表现。
Debatrix系统中迭代时间分析的详细视图

Debatrix允许在演讲分析过程中配置单个迭代时间分析以覆盖多个维度,使得最终的辩论分析也是多维的。此外,系统还可以将维度拆分并分配给多个分析,每个分析专注于一个特定维度:

  • 每个维度都有一个记忆存储该维度的内容分析,允许对辩论有更细致的理解。
  • 除了生成维度裁决外,Debatrix还可以将来自多个迭代时间分析的辩论分析组合成一个系统分析。这允许在辩论结束时,从各个维度汇总辩论分析,以生成更准确的一般性判断。
如何将来自多个迭代时间分析的多维辩论分析组合成最终辩论结束时的系统性分析

基准

DebateArt 是从在线辩论平台收集的辩论数据集。该平台提供1对1的辩论竞技场,用户通过投票来决定辩论的胜者。除了常见的胜者选择系统外,平台还提供了一个分类点分配系统,要求投票者在四个维度上进行评估:论证(Argument)、来源(Source)、清晰度(Legibility)和行为(Conduct)。这种投票系统为辩论提供了不同维度的评判:支持正方、支持反方或平局。此外,投票者必须提供他们决策的详细解释,并且他们的投票由经验丰富的管理员监督,提高了投票的质量。每个维度下的加权平均投票决定了辩论的胜者。

DebateArt辩论的数据内容统计信息,包括辩论中演讲的数量、演讲中的标记数和辩论中的标记数

BP-Competition 包含了从世界级竞争辩论比赛中转录的辩论,这些辩论遵循英国议会(BP)格式,涉及四支队伍(每方两支),为PanelBench提供了长篇、复杂、高质量的样本。这种格式要求评判者判断哪支队伍表现最佳,而不仅仅是预测获胜方。这些辩论显著长于DebateArt辩论,并且由于BP格式的特殊性,评判过程更为复杂。

BP-Competition辩论的数据内容统计信息,包括演讲和辩论中的标记数

在构建PanelBench时,研究者们从DebateArt平台收集了100场有效辩论的数据,包括辩论主题、辩论者、描述、论点和投票结果。对于BP-Competition辩论,研究者们从WUDC、EUDC和NAUDC等比赛的官方视频录像中提取音频文件,并使用语音识别技术转换成文本。之后,手动检查和格式化输出结果,以确保转录的完整性和准确性。

研究者们对DebateArt和BP-Competition辩论的内容进行了统计分析,包括辩论中的演讲数量、每个演讲的标记数量以及整个辩论的标记数量。这些统计数据有助于理解辩论的结构和复杂性,并且对于评估辩论评判系统的性能至关重要。

实验

研究者们使用的LLMs模型,包括ChatGPT和GPT-4,并主要集中于ChatGPT来测试Debatrix在有限上下文窗口下的表现。实验中设置了温度参数为0,并且为了控制评估的维度,系统提示中加入了评判偏好。为了减少输入长度,实验中省略了先前演讲的相关上下文,仅包含内容分析。此外,要求评判员首先输出评论,然后再次调用LLMs来生成相应的分数或胜者裁决。

研究者们将Debatrix与以下基线模型进行了比较:

ChatGPT和GPT-4:这些模型一次性阅读整个辩论并生成一般裁决。

Chronological:此模型引入了迭代时间分析,但没有进行维度拆分。

Dimensional:此模型引入了维度协作,但在输入辩论时未进行拆分。

NonIterative:此模型与Debatrix相似,但分析过程不是迭代的,直接基于原始文本进行演讲分析。

对于DebateArt辩论,实验采用了两种胜者预测方法:分数比较(SC)和直接预测(DP)。对于BP-Competition辩论,由于不允许平局,只使用了直接预测方法。

实验结果显示了Debatrix系统在两个辩论数据集上均展现出了超越所有基线模型的卓越性能,这包括与功能更全面的GPT-4相比也是如此。这一结果显示了Debatrix在进行长篇辩论评判时的独特优势。特别对于ChatGPT这样有上下文长度限制的模型,迭代时间分析法显得尤为重要,因为它允许模型更有效地处理长篇辩论。另外在短辩论中,多维度的协作同样显示出其重要性,增强了模型在评估辩论时的准确性。

在PanelBench基准测试中不同模型的辩论评判性能

研究者们分析了Debatrix在处理多轮和长篇辩论时的表现。通过Figure 5的数据显示,无论辩论中的演讲数量或标记数量如何,Debatrix都能保持相对较低的均方根误差(RMSE)。这表明Debatrix能够有效地评估各种长度和复杂性的辩论,而其他模型则在不同辩论长度或复杂性条件下表现不一致。

不同模型在不同演讲数量或标记数量的辩论上的表现分析

研究者评估了Debatrix在DebateArt辩论数据集中论证维度上的表现。实验结果表明,Debatrix在理解和评估论证方面具有优势,即使在不使用更强大的LLM如GPT-4的情况下,也能通过迭代分析来提高性能。

表格列出了在论证维度上DebateArt辩论的获胜者预测均方根误差(RMSE)

最后研究者们对GPT-4在BP-Competition辩论中的位置偏差进行了深入分析。他们发现,即使GPT-4拥有处理长篇辩论的足够上下文窗口,它在预测胜者时仍然存在偏差,倾向于选择最后发言的辩论者。这种偏差可能源于LLM对于最后发言者的偏好,因为它们有机会反驳其他辩论者而不受反驳,从而在评判中显得更有说服力。研究者们提出了对这一现象的猜想,并指出了未来研究中需要进一步调查的方面。

表格总结了在BP-Competition辩论中不同模型对获胜者的预测分布

通过这些实验,研究者们展示了Debatrix系统在自动辩论评判任务中的有效性,以及其在处理长篇、多轮辩论和多维度评估方面的优越性能。同时,这些实验结果也揭示了在自动辩论评判领域中存在的挑战和未来改进的方向。

论文链接:https://arxiv.org/abs/2403.08010

项目链接:https://github.com/ljcleo/debatrix

Demo 链接:Debatrix Demo

;