Hai Ye, et al. “Preference-Guided Reflective Sampling for Aligning Language Models” -- EMNLP2024
论文:https://arxiv.org/pdf/2408.12163
项目:https://data-sampling-prs.github.io
代码:https://github.com/nusnlp/PRS
1. 前言
大型语言模型(LLMs)在后训练阶段需要与人类偏好进行对齐,而在这一对齐和优化过程中,采样方法尤为关键,特别是在数据生成和模型再训练的迭代阶段。传统的随机采样方法尽管广泛应用,但在探索效率和生成质量上存在明显局限。因此,研究人员提出了一种更高效的采样方法,称为偏好引导反思采样(Preference-Guided Reflective Sampling, PRS。
与随机采样不同,PRS 采用树状生成框架,并结合自我改进技术,从而显著提升采样效率。此外,PRS 允许用户通过自然语言表达偏好,从而优化模型生成的内容,更好地满足多样化的需求。实验结果表明,与传统的随机采样方法相比,PRS 生成的响应质量更高,且在奖励分数上有显著提升。在AlpacaEval和Arena-Hard基准测试中,PRS 在best-of-N采样表现上优异,并且能够更精准地生成个性化的输出。Figure 1: 随机采样和PRS在best-of-N 采样上的效果对比。
2. 问题设定
对齐一个大语言模型,迭代生成数据以及再训练是一个常见以及有效的方法 (如Figure 2 所示)。在这个过程中,如何生成高质量的数据是一个关键[1]。Figure 2: 迭代数据生成以及模型重训练的模型对齐方法。
2.1 Best-of-N sampling
Best-of-N sampling(或称Reject sampling)是一种非常常用的数据生成方法。对于给定的提示(prompt),Best-of-N sampling(BoN)从当前最新的模型中采样生成 N 个响应,然后使用一个经过训练的奖励模型来选择奖励最高的响应,以用于下一轮训练。
2.2 Repeated Random Sampling
在 Best-of-N 设定下,随机采样(Random sampling, Rand)是一种常用且非常简单的采样方法。Random sampling 通过并行生成 N 个独立的响应,并利用 temperature sampling 来控制生成的多样性。
尽管 random sampling 简单有效,但它存在两方面的缺点:
采样效率低下:每个响应的生成都是独立的,新的响应生成无法从之前的样本中学习信息。这会影响响应质量,从而限制采样效率的提升。
未考虑偏好影响:语言模型的对齐目标是生成符合用户偏好的响应,而 random sampling 在生成过程中并未考虑用户偏好,导致其生成的响应无法满足不同用户的偏好需求。
3. Method: Preference-Guided Reflective Sampling (PRS)
Figure 3: 在 Random sampling 与新提出的方法 PRS 的对比中,PRS 采用了一种树状采样方法,通过迭代逐步提升响应的质量。对于任意给定的用户偏好,PRS 能够生成相应的响应,从而有助于模型在个性化方面的对齐和优化。
为了提高数据采样的效率和生成响应的质量,研究人员在随机采样的基础上提出了一种新的采样方法——偏好引导反思采样(Preference-Guided Reflective Sampling, PRS)。
与随机采样不同 (如Figure 3 所示):
PRS采用树状结构生成响应,并将生成过程转化为迭代改进的过程。这样做的目的是让采样方法能从先前的采样结果中学习,从而帮助模型生成更高质量的响应。
同时,PRS还可以根据具体的用户偏好生成相应的响应。例如,如果需要一个简洁的响应,可以将偏好设定为"我更喜欢简洁的回复",PRS就能针对这一偏好优化输出。
Figure 4: PRS 生成响应的具体过程。
具体来说,对于一个给定的prompt 和用户偏好 ,PRS让模型 生成 个响应。PRS采用树状结构进行采样,这种结构可以有多层,每层都有相应的宽度。为简化起见,PRS默认使用两层结构,每层宽度为 。此外,研究人员还使用一个预先训练好的奖励模型 来对生成的响应进行评分。
如Figure 4 所示,PRS 生成过程如下 (两层的树状结构):
第一层:根据 ,使用随机采样生成 个响应,即 ;
使用奖励模型对 中的每个响应进行评分,选出奖励值最高的响应 ;
让模型根据 进行自我反思,评估 是否符合给定的偏好 ,生成相应的反馈 ;
第二层:基于 ,同样使用随机采样生成 个改进版响应,即 ;
再次使用奖励模型对 中的每个响应进行评分;
最后,合并以及,返回其中奖励值最高的响应。
Algo 1 展示了PRS采样数据的伪代码。请注意,PRS在采样过程中,可以不指定用户偏好以及不生成反馈。Algo 1: PRS 生成响应的伪代码。用户偏好z可以不给定以及反馈f 也可以选择不生成。
4. 实验结果
在实验中,研究人员比较了不同方法在数据采样以及用户偏好适应两个方面的效果。
数据采样方法对比:
Rand: 这是random sampling的方法;
PRand: 这是在random sampling的基础上,在输入的prompt中,加入用户的偏好;
Greedy: 模型不断迭代修改当前奖励最高的响应 [2];
PRS:新提出的方法。
4.1 在AlpacaEval 以及Arena-Hard上Best-of-N sampling的结果
首先,研究人员在 AlpacaEval 上进行了 best-of-N 采样实验,即针对同一提示(prompt),分别使用 random sampling 和 PRS 生成 N 个响应,并保留奖励分数最高的响应。
研究人员测试了不同的语言模型来进行采样:Mistral-7b-instruct-v0.2,Mistral-large-2407,Llama-3-8b-instruct,Llama-3.1-70b-instruct,Gemma-2-9b-it,以及Qwen2-72b-instruct。Table 1: 在AlpacaEval v2.0 以及 Arena-Hard v0.1上Best-of-N sampling 的结果。研究人员使用了ArmoRM-Llama3-8B-v0.1作为奖励模型,以及用GPT-4来打分计算win rate。请注意,这里PRS没有指定用户偏好以及生成反馈。
如 Table 1 所示,研究人员首先展示了不同模型在AlpacaEval v2.0以及Arena-Hard v0.1上的基线结果。研究人员发现,通过采样多个响应并选择最佳 response 可以显著提高模型的效果。此外,与 random sampling 相比,PRS 在 best-of-16 和 best-of-32 的情况下都展现出一致的性能提升。这个实验结果证明了,PRS在best-of-N sampling上相比于随机采样具有更优的性能。
4.2 采样质量结果对比
研究人员进一步对比了在不同采样数量上,不同方法生成响应的奖励值。Figure 5: 在不同采样数量下,不同采样方法生成响应的奖励值。对于PRS,研究人员考虑了树结构中不同宽度、以及是否生成反馈的影响。“w/o f”表示不生成反馈。这里研究人员使用了AlpacaEval的prompt来生成响应,以及UltraRM-13b作为奖励函数。
如Figure 5所示,PRS (N/2, N/2) 和 PRS (N/2, N/2) w/o f 取得了更优的结果。研究人员发现,PRS 相比其他采样方法具有更高的采样效率:在相同采样数量下,PRS 的奖励值更高;而在达到相同奖励值的情况下,PRS 所需的计算量更少。因此,PRS是一个更加compute-optimal的方法。
4.3 用户偏好适应
研究人员进一步比较PRS在用户偏好适应(Adaptation)的有效性,并且比较了以下几个方法:
Rand: 这是random sampling的方法;
PRand: 这是在random sampling的基础上,在输入的prompt中,加入用户的偏好;
PRS:新提出的方法。
研究人员首先使用这三个方法来对齐大语言模型。具体流程是:先用这三个方法生成数据,然后用生成的数据来对齐语言模型。研究人员重复了这个过程三次。在生成数据时,研究人员对用户偏好进行了处理:研究人员给训练数据中的每个prompt预先标记了不同的用户偏好。关于具体的标记过程,请参考论文。对于PRand以及PRS生成数据,研究人员用这样的函数来训练模型,而Rand则使用这样的训练方式。Figure 6: 用户偏好适应的结果对比。研究人员考虑了5种不同的用户偏好,用GPT-4来判断某两个方法生成的响应,哪个更加符合所指定的用户偏好。
如 Figure 6 所示,在获得对齐后的模型后,研究人员测试了 5 种不同的用户偏好。对于每个测试 prompt,研究人员在其后添加用户偏好描述,然后输入模型生成对应响应,即 。研究人员使用 GPT-4 进行自动评分,判断哪个响应更符合用户偏好。结果表明,PRS 比 Rand 和 PRand 具有更好的适应性,证实了 PRS 可用于更精准的个性化对齐。同时,研究人员发现 PRand 是一个强有力的基准方法——仅在 prompt 后添加简单的偏好指令就能产生不错的个性化输出。
结论
提出了一种新的数据采样方法PRS。与随机采样相比,PRS采用树状结构和迭代生成的方式,显著提高了采样效率,生成更高质量的响应。此外,PRS能根据用户指定的偏好生成更精准的个性化输出,从而促进了模型的个性化对齐。PRS为模型对齐提供了一种创新的数据采样方法。由于其设计简洁、易于实现,PRS能够高效替代传统的随机采样方法,提供更具针对性的采样过程。
参考资料
Gulcehre, Caglar, et al. "Reinforced self-training (rest) for language modeling." arXiv preprint arXiv:2308.08998 (2023).
Madaan, Aman, et al. "Self-refine: Iterative refinement with self-feedback." Advances in Neural Information Processing Systems 36 (2024).
备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群
id:DLNLPer,记得备注呦