Bootstrap

大语言模型(LLM)数据标注技术调研:定义、框架、提示、反馈、评价、挑战、机遇

数据标注是对原始数据进行标记或分类的过程,对于提高机器学习模型的效率至关重要。然而,这一过程既劳动密集又成本高昂。**先进的大语言模型(LLMs)的出现,如GPT-4,为数据标注的革命性变革和自动化提供了前所未有的机遇。**尽管现有的调查广泛涵盖了LLM的架构、训练和一般应用,但本文特别关注它们在数据注释中的具体用途。**本调查对以下三个核心方面做出了贡献:基于LLM的数据标注、评估LLM生成的标注以及使用LLM生成的标注进行学习。**此外,本文还包括了使用LLM进行数据注释的方法的深入分类、对将LLM生成的注释纳入模型的学习策略的全面回顾,以及对使用LLM进行数据注释所面临的主要挑战和局限性的详细讨论。作为关键指南,本调查旨在引导研究人员和从业者探索最新LLMs在数据标注中的潜力,促进这一关键领域的未来发展。

我们翻译解读最新论文:基于大语言模型的数据标注,文末有论文链接。

图片
1 引言

在机器学习和自然语言处理(NLP)的复杂领域中,数据注释被公认为是一个关键但具有挑战性的步骤,它超越了简单的标签附加,包含了丰富的辅助预测信息。这一详细的过程通常涉及以下步骤:❶ 对原始数据进行分类或任务标签分类以进行基本分类,❷ 添加中间标签以增加上下文深度(Yu et al., 2022),❸ 分配置信度分数以衡量注释的可靠性(Lin et al., 2022),❹ 应用对齐或偏好标签以使输出适应特定标准或用户需求,❺ 注释实体关系以理解数据集中的实体如何相互作用(Wadhwa et al., 2023),❻ 标记语义角色以定义实体在句子中扮演的潜在角色(Larionov et al., 2019),以及❼ 标记时间序列以捕捉事件或动作的顺序(Yu et al., 2023)。由于数据的复杂性、主观性和多样性,数据注释为当前的机器学习模型带来了重大挑战,需要领域专业知识和手动标记大型数据集的资源密集型特性。像GPT-4(OpenAI, 2023)、Gemini(Team et al., 2023)和Llama-2(Touvron et al., 2023b)这样的先进LLMs提供了一个有希望的机会,可以彻底改变数据注释。LLMs不仅仅是工具,它们在提高数据注释的有效性和精确性方面发挥着至关重要的作用。它们自动化注释任务的能力(Zhang et al., 2022)、确保大量数据的一致性(Hou et al., 2023)以及通过微调或提示适应特定领域(Song et al., 2023),显著降低了传统注释方法所遇到的挑战,为NLP领域设定了新的标准。本调查深入探讨了使用LLMs进行数据注释的细微差别,探索了方法论、学习策略以及与这种变革性方法相关的挑战。通过这次探索,我们的目标是阐明将LLMs作为催化剂来重新定义机器学习和NLP中数据注释格局背后的动机。我们在利用最新的LLMs进行数据注释的领域中导航。本调查做出了四个主要贡献:

  • 基于LLM的数据注释:我们深入探讨了新型LLMs(如GPT-4和Llama-2)的特定属性(例如,语言理解、上下文理解)、能力(例如,文本生成、上下文推理)以及微调或提示策略(例如,提示工程、领域特定的微调)。

  • 评估LLM生成的注释:我们探索了各种评估注释质量的方法以及如何选择众多选项中的高质量注释。

  • 使用LLM生成的注释进行学习:我们调查了基于LLM生成的注释训练机器学习模型的方法,评估了质量、可靠性以及对下游任务的影响。

  • 挑战和伦理考虑:我们识别并讨论了从技术限制(如抽样偏差和幻觉)到伦理困境(如社会偏见和更广泛的社会影响)的挑战。

图片

本调查侧重于LLM应用中代表性不足的方面,旨在为打算部署LLM进行注释的学者和从业者提供宝贵的指导。请注意,本调查主要关注纯语言模型。因此,我们没有考虑最近出现的多模态LLMs,如LLaVA(Liu et al., 2023b)。图1展示了本调查的一般结构。本调查通过强调这些强大的下一代LLMs在数据注释领域的应用,而与之区别开来,这是一个至关重要但尚未充分探索的领域。

2 符号和初步知识

在本节中,我们介绍本文中使用的重要符号和初步知识。符号及其定义可以在表1中找到。

图片

在这里插入图片描述
在这里插入图片描述

3.2 通过成对反馈进行对齐

与人类中心属性对齐的重要性日益得到认可。这些属性包括有用性、诚实性和无害性,对于LLMs在公共互动中的表现至关重要,超越了它们固有的NLP技能。传统的无监督学习方法,如下一个词预测,未能灌输这些品质。

人类偏好对齐。 基于人类偏好的微调是将这些特征嵌入LLMs的主要策略。一种普遍但资源密集的技术需要收集关于特定LLM响应的数量化反馈。尽管这种方法有效,但它成本高昂且需要大量努力。像Sparrow这样的倡议为人类注释器设定了标准,但研究者意图和注释器感知之间的差异可能会影响反馈质量。

自动化反馈。 因此,最近的进展旨在自动化反馈机制,通常使用另一个LLM或同一个LLM来注释不同的输出。这种方法通常涉及一个LLM作为奖励模型,由人类偏好数据提供信息。例如,OpenAI和DeepMind分别实施了6B GPT-3和7B Gopher模型作为奖励模型。各种研究已经深入探讨了这种自动化方法的不同方面。例如,研究收集了人类对摘要的比较判断,以训练一个奖励模型。然后利用该模型通过强化学习改进摘要策略。此外,评估了奖励模型的不同训练目标,发现排名偏好建模倾向于比模仿学习更有效地随着模型大小的增加而改进。该模型使用各种社会福利函数来整合这些个人偏好。最新的研究采用了Bradley-Terry模型指导LLMs评估人类注释器所做的选择。

4 评估LLM生成的注释

有效评估LLM生成的注释对充分利用其潜力至关重要。本节重点关注两个主要方面:评估LLM生成的注释和通过主动学习进行数据选择。

4.1 评估LLM生成的注释

本小节探讨了评估注释质量的各种方法,从以人类为主导到自动化方法。研究已经调查了多种评估LLM注释的方法。例如,“Turking Test”评估了LLMs对数据注释指南的遵守情况,人类注释器将LLM输出与SNLI、SQuAD和NewsQA等基准进行比较。同样,手动检查了LLMs创建的数据集的原创性、准确性和多样性,重点关注它们对指令的响应。此外,像Alizadeh等人的研究测量了开源LLMs在相关性和主题检测等任务中与人类注释标签的性能。

4.2 通过主动学习进行数据选择

从众多选项中选择高质量注释至关重要。主动学习(AL)成为一种关键技术,特别是将LLMs整合到AL过程中。本节介绍了基于池的AL在学习注释框架内,存在一个庞大的未标记数据池和一个小标记数据集。AL从池中战略性地选择最具信息量的样本,以提高学习模型的性能或直到达到预算限制。LLMs作为获取函数:存在各种类型的获取函数α(xi, L),分为多样性、不确定性和相似性。在这种情况下的著名研究包括Shelmanov等人和Tamkin等人的研究,每个研究都在使用LLMs作为获取函数的不同方面进行了调查。LLMs作为预言注释器:创新研究在AL设置中使用LLMs作为预言注释器,增强了NLP模型的领域泛化和上下文学习。此外,提出了使用LLMs来注释输入文本对之间的任务特定偏好,促进了任务标签的联合学习。

5 使用LLM生成的注释进行学习

LLM生成的注释为各种机器学习任务提供了宝贵的标记数据资源。本节探讨了使用LLM生成的注释的学习方法。

5.1 目标领域推断:注释的直接使用

在本节中,我们探索了LLM生成的注释在不同下游任务中的实用应用。通过精心设计的提示从LLMs中提取的注释,为广泛的下游应用提供了宝贵的预测。这种使用可以根据第2节中的定义进行分类:a. 监督:以任何形式使用标签。b. 无监督:注释作为预测使用,不涉及标签,例如零样本场景。预测标签。使用手动设计的提示,LLMs以两种不同的方式生成预测标签。首先,它们在考虑演示样本时预测标签,表示为ˆy = A(q(x|D))。其次,它们在不依赖于演示样本的情况下进行预测,表示为ˆy = A(q(x))。根据这些演示样本的来源,可能是D ⊂ Dl或D ⊂ Du,这可以被分类为监督或无监督。这种技术使LLMs能够为广泛的任务做出贡献,包括推理、知识库、因果推理、推荐系统、医疗保健,甚至视觉-语言模型。推断其他属性。同样,LLMs擅长将提示与特定属性或概念相关联,在监督和无监督设置中都有效。这种能力在模型如概念瓶颈模型中特别有利,它们通过识别潜在概念来生成预测。在这种情况下,LLMs有效地解决了数据集注释有限的问题。在视觉-语言任务中,LLMs可以用来自动为图像分类生成文本描述。

5.2 知识蒸馏:连接LLM和特定任务模型

在前面关于直接使用注释的讨论的基础上,知识蒸馏(KD)出现了,作为利用LLM能力的另一种方法。KD促进了从一个更大的“教师”模型,通常是LLM,向一个更小、更专注的“学生”模型的专业知识转移。这项技术使学生模型能够匹配甚至超越教师的表现,尽管资源需求较低。模型增强。目前,有几项研究采用了KD来丰富一个特定任务的学习器模型L,该模型由基于LLM的注释器A注释的数据集进行训练。例如,Magister等人(2022)、Fu等人(2023)、Sun等人(2023)和Li等人(2024)的研究重点是使用A注释的数据集来训练L。相反,Hsieh等人(2023)采用“任务困难”作为A提供的辅助标签来增强L的学习过程。值得注意的是,Alpaca(Taori等人,2023a)和GPT4All(Anand等人,2023)使用LLM生成的语料库来训练他们的轻量级学生模型,实现了令人印象深刻的表现。KD创新。在工具方面,GKD(Tan等人,2023a)是一个最近开发的库,它简化了与LLMs的KD过程。这一动态领域的进展包括使用黑盒(Jiang等人,2023b)和白盒(Gu等人,2023c)LLMs作为教师模型,效率的提高(Jha等人,2023)以及扩展到专业领域,如生物医学知识提取(Gu等人,2023b)、代码生成(Gunasekar等人,2023a)、网络内容过滤(Vörös等人,2023)和数学推理(Fu等人,2023)。总之,采用KD来训练任务特定模型提供了降低计算需求和保持性能的双重优势,使其成为当代自然语言处理中非常有希望的途径。

5.3 利用LLM注释进行微调和提示

使用LLM生成的注释进行微调或提示以适应LLM变得越来越流行,遵循知识蒸馏原则来释放LLM的潜力。研究表明,用于监督微调的更大数据集增强了LLM的泛化能力(Sanh等人,2021;Wei等人,2021),突出了LLM注释数据的日益重要性(Wang等人,2022c)。这些方法主要分为四类:

上下文学习(In-Context Learning, ICL)。 起源于GPT-3模型(Brown等人,2020),上下文学习(ICL)已被广泛用于提高LLM在各种任务中的表现。该方法通常使用包含任务指令和示例演示的特殊格式的提示。这些提示帮助LLM在不需要显式参数更新的情况下推断新任务。尽管有效,但它们通常难以实现(Margatina等人,2023)。因此,基于LLM生成的注释获得有用提示的有效方法是(Hongjin等人,2022)。由于任务指令对ICL的性能至关重要,因此有多项工作提出了自动生成指令的方法,而无需人工操作的繁琐过程(Zhao等人,2023)。在(Honovich等人,2022b)中,作者观察到,提供几个示例后,LLMs可以学习为各种任务生成指令,从而提高ICL性能。除了使用LLM生成的注释作为指令的方法外,其他工作还探索了利用LLM生成的演示进行ICL的可能性(Dong等人,2022)。其中,名为合成提示(Shao等人,2023)的技术已经获得了关注。该技术基于给定输入问题的推理链构建新问题,然后使用聚类方法选择最多样化和最复杂的演示。使用原始文本数据集作为热身,(Chen等人,2022)介绍了一种创建与ICL学习格式对齐的自监督数据的方法,用于各种下游任务。

思维链提示(Chain-of-Thought Prompting,CoT) 它代表了ICL中的一种特殊方法,特别增强了LLM在复杂推理任务(如算术推理(Miao等人,2021)、常识推理(Talmor等人,2018)和符号推理(Wei等人,2022b))中的表现。与传统ICL不同,CoT在提示中引入了中间推理步骤。这些步骤旨在有意义地贡献最终输出。这一区别强调了CoT对推理机制的关注。人们普遍认为,创建有效的CoT提示对于解锁LLM的复杂推理能力至关重要(Dong等人,2022)。由于手动创建此类提示可能成本高昂且耗时(Wei等人,2022b),最近的工作普遍提出了通过LLM自动生成CoT提示。例如,在零样本CoT(Kojima等人,2022)中,LLMs被提示“Let’s think step by step”以生成推理步骤,然后是“Therefore, the answer is”以得出结论。Auto-CoT(Zhang等人,2022)通过应用聚类策略来完善这种方法,以确定每个聚类最具代表性的训练问题。相关研究(Wang等人,2022a)通过考虑提示置信度扩展了这一点,发现多样化的推理路径对于有效的CoT至关重要。在另一方面,(Fu等人,2023)提出将LLM生成的CoT和少量样本演示结合起来,以保留ICL能力,同时在使用不同的提示格式时提高推理性能。(Wang等人,2023a)探索了使用LLM注释的理由进行基于CoT提示的知识蒸馏。尽管存在不相关或空洞的理由,作者使用对比解码显著提高了使用这种增强数据训练的学生模型的推理能力。

指令调整(Instruction Tuning,IT)。 虽然ICL通过改变输入结构来调整LLM,但指令调整采取了不同的方法,在监督学习的背景下对各种任务进行微调(Zhao等人,2023)。多份工作已经证明,LLMs在微调后显示出显著的能力,可以推广到不熟悉的任务(Chung等人,2022;Muennighoff等人,2022)。然而,获取高质量训练数据的过程通常涉及大量的人力,这在特定现实场景中可能是不切实际的(Lou等人,2023)。为了避免获取人类注释的繁琐过程,最近的工作转而使用LLM生成的注释。作为一个经典的例子,在Self-Instruct(Wang等人,2022b)中,LLM被提示自主生成新的指令输入-输出对。这些随后被过滤并用于微调T5模型(Brown等人,2020)。这个两阶段的流程生成指令,过滤掉无效或冗余的实例,并使用其余的进行模型微调。Alpaca(Taori等人,2023b)利用LLM生成的注释,以指令遵循演示的形式微调LLaMA模型(Touvron等人,2023a)。值得注意的是,GopherCite模型(Menick等人,2022)引入了一个强化学习框架,训练LLM生成以引用证据支持的答案形式的注释,从而提高了其响应的可验证性。(Chiang和Lee,2023)对使用LLM生成的注释进行人类类似评估的可靠性进行了研究,跨越了各种NLP任务。

对齐调整(Alignment Tuning ,AT)。 对齐调整旨在消除LLMs的不良行为,通过与人类期望对齐(Zhao等人,2023)。然而,在实践中,收集人类反馈通常是昂贵和费力的(Ziegler等人,2019)。因此,现有的工作通常学习一个替代奖励模型,可以模仿人类对一对输入的偏好(成对反馈)。为了训练注释的奖励模型,研究人员通常会首先从人类注释器那里收集一个标记的成对反馈数据集。然后基于不同的策略,许多算法直接从Dl学习(Keskar等人,2019;Liu等人,2023a;Korbak等人,2023),而其他算法(Christiano等人,2017;Ouyang等人,2022)学习一个替代奖励模型从Dl并用它来自动注释由LLMs生成的未标记成对反馈。为了使LLMs与注释对齐,现有工作通常利用强化学习(OpenAI,2023;Touvron等人,2023b)的策略,即RLHF(来自人类反馈的强化学习)。作为一个经典的例子,InstructGPT(Ouyang等人,2022)使用PPO策略(Schulman等人,2017),并在每次更新中计算当前LLM输出与前一次更新输出之间的Kullback-Leibler(KL)散度。通过这种方式,框架可以以更稳健的方式进行优化。另一方面,ILQL(Snell等人,2022)探索了与流行的在线RL场景相反的离线设置中LLM生成注释的对齐调整的应用。在GopherCite(Menick等人,2022)中,作者采用人类偏好的强化学习(RLHP)来训练问答模型,以产生答案并同时引用特定证据来支持他们的主张,从而促进准确性的评估。最近,RLAIF(Lee等人,2023)利用由现成的LLM标记的偏好,而不是人类,实现了与使用人类标记数据相似的性能。

6 挑战

在本节中,我们概述了LLM数据注释挑战,包括技术障碍、准确性问题以及像劳动置换和偏见传播这样的社会影响。解决这些问题对于推进LLM注释应用至关重要。

模型模仿中的复合误差。努力缩小像ChatGPT这样的专有LLMs和像LLaMA这样的开源对手之间的性能差距,通常涉及通过训练来自更强大模型的输出来增强后者的能力。虽然这种策略取得了不同的结果,但模仿模型经常复制风格元素而没有实现更优越模型的事实精度。研究强调了模仿失败的主要原因是模型崩溃,即模仿模型逐渐偏离它试图复制的模型的数据分布。这种偏离是由两个主要问题推动的:统计近似误差,源于有限的样本大小;功能近似误差,源于受限的模型容量。这两种误差都倾向于在连续的训练周期中放大。模型崩溃和近似误差的后果延伸到社会领域。传播和使用带有这些不准确性的LLM生成的注释可能会在未来的模型训练中导致数据污染。这种情况风险随着时间的推移破坏LLMs的可信度,影响它们在关键应用中的效用。解决未来研究中的这些问题对于构建下一代LLMs,或更广泛地说,人工通用智能(AGI),越来越重要。

LLM注释中的幻觉现象。LLMs中的幻觉现象显著破坏了其生成注释的完整性和可靠性。输出与实际数据脱节可能导致注释中的虚假信息和不准确性,对医疗保健、法律分析和金融领域等敏感领域构成重大风险。解决幻觉问题需要全面策略,包括完善LLM训练过程以减少无根据内容的出现,并通过自动化和手动验证实现注释的验证机制。然而,LLMs的固有不透明性使得难以精确定位和纠正幻觉的原因,这在部署LLM进行关键注释角色时引发了道德困境。这强调了持续研究以减轻幻觉的必要性,同时在LLM应用领域平衡性能提升和道德关切。

社会影响。LLM生成的注释在金融、司法和医疗保健等现实世界领域的广泛传播,有潜力显著提高效率和生产力。然而,这种自动化引入了社会挑战,特别是关于劳动置换、注释质量和社会发展影响。向自动化注释的转变有可能使人类注释者的角色变得多余,可能加剧收入差距,影响低技能就业领域。此外,尽管LLM注释生成的速度很快,但缺乏人类洞察力可能导致缺乏深度的输出,从而导致有偏见或不公平的研究结果。此外,依赖LLMs来执行传统上由人类管理的任务需要谨慎的方法,以确保技术进步不会无意中加剧社会不平等或降低质量标准。未来的研究应该旨在将技术进步与其更广泛的社会后果协调一致。

7 结论

对LLMs在数据注释中的探索揭示了NLP中一个激动人心的前沿方向,为像数据稀缺这样的长期挑战提供了新的解决方案,并提高了注释质量和过程效率。本调查仔细审查了与LLM就业相关的的方法论、应用和障碍,包括像提示工程和领域特定调整这样的创新策略。它评估了LLM生成的注释对训练机器学习模型的影响,同时解决了像偏见和社会影响这样的技术和道德问题。突出我们对LLM方法论的新分类,利用LLM生成的注释的策略,以及对挑战的批判性讨论,这项工作旨在引导这一关键领域未来的进展。此外,我们介绍了技术的综合分类,并编制了广泛的基准数据集,以支持正在进行的研究工作,最后检查了持续的挑战和开放问题,为在该领域的未来调查追求铺平了道路。

如何学习大模型

现在社会上大模型越来越普及了,已经有很多人都想往这里面扎,但是却找不到适合的方法去学习。

作为一名资深码农,初入大模型时也吃了很多亏,踩了无数坑。现在我想把我的经验和知识分享给你们,帮助你们学习AI大模型,能够解决你们学习中的困难。

我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习,等录播视频免费分享出来,需要的小伙伴可以扫取。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。

在这里插入图片描述

二、AI大模型视频教程

在这里插入图片描述

三、AI大模型各大学习书籍

在这里插入图片描述

四、AI大模型各大场景实战案例

在这里插入图片描述

五、结束语

学习AI大模型是当前科技发展的趋势,它不仅能够为我们提供更多的机会和挑战,还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型,我们可以深入了解深度学习、神经网络等核心概念,并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时,掌握AI大模型还能够为我们的职业发展增添竞争力,成为未来技术领域的领导者。

再者,学习AI大模型也能为我们自己创造更多的价值,提供更多的岗位以及副业创收,让自己的生活更上一层楼。

因此,学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。

;