做了哪些事情?
1.对齐调整究竟如何改变基础 LLM?我们通过检查基础 LLM 与其对齐对应物(例如 Llama-2 和 Llama2-chat)之间的标记分布偏移来分析对齐调整的效果=>对齐调整主要学习采用 AI 助手的语言风格,而回答用户查询所需的知识主要来自基础 LLM 本身。=>验证“表面对齐假说”
2.URIAL (Untuned LLMs with Restyled In-context ALignment)
3.为了严格评估不同的对齐方法,我们设计了一个多方面、可解释的评估协议。
对齐调整(常用SFT+RLHF)究竟如何改变基础 LLM?
Motivation
“表面对齐假设”(《LIMA: Less Is More for Alignment》:仅使用 1K 个 SFT 示例也可以实现显着的对齐性能,这表明对齐调整的效果可能是“表面的”),该假设认为对齐调整可能只是教会基础 LLM 选择一组数据格式来与用户交互。
=>Question:对齐调整(常用SFT+RLHF)究竟如何改变基础 LLM?
Method
检查基础 LLM 和其对齐LLM之间的token distribution shift来分析对齐调整的效果。
用户的输入为$q = {q_1, q_2, \dots}$ ,对齐后模型的输出为 $o = {o_1, o_2, \dots}$。 $P_{\text{align}}$ 表示在该位置的每一个 token 的概率分布。 在位置 $t$的 token 上下文表示为 $x_t = q + {o_1, \dots, o_{t-1}}$。 然后将$x_t$ 代入 Base LLM 中,生成一个概率分布 $P_{\text{base}}$。
=>如果基础模型学会通过对齐调整来修改其在此上下文中的行为,我们应该观察到 $P_{\text{base}} $和$P_{\text{align}}$之间的分布在此位置发生变化。另一方面,如果这两个分布彼此非常相似,则意味着对齐调整对此位置的影响微乎其微。
Analysis
- 知识密集型内容源自未调整的 LLM。
推广:
- 对齐仅影响很小一部分 token,主要涉及风格 token,例如话语标记、过渡词和安全免责声明,这些 token 仅占总 token 位置的很小一部分。
-
对齐对于较早的 token 更为关键。
-
base LLM 已经获得了足够的知识来遵循指令。当给出适当的上下文作为前缀时,它们的结果与对齐的 LLM 非常相似。
=>对齐调整主要学习采用 AI 助手的语言风格,而回答用户查询所需的知识主要来自基础 LLM 本身。
URIAL (Untuned LLMs with Restyled In-context ALignment)
Motivation
对齐调整(SFT+RLHF):1.需要大量资源 2.可能会导致忘记基础 LLM 中先前获得的知识
Q:能在不进行调整的情况下实现对齐吗?
Q:提示和上下文学习方法能多好地对齐基础 LLM?
基线无调整对齐方法:零样本模板提示、原始上下文学习 (Few-shot) 、检索增强型 ICL。
Method
URIAL 可以看作是原始ICL的扩展,分为两个部分:ICL 示例的风格输出和上下文对齐的系统提示。
简单地说如图所示,作者就是在设计了系统提示,并选择了几组问答示例。这些示例作为上下文提示,被用来指导和改善基础LLMs生成的回答,使其在风格上更符合人类用户的偏好,并且在内容上更加安全、有帮助和具有社会责任感。这些ICL旨在不需要对LLM进行额外的调整训练的前提下,通过精心设计的静态上下文示例来实现改善输出的目的。
Experiment
just-eval-instruct 数据集
为了评估 LLM 在多样化示例集上的对齐情况,我们合并了五个现有数据集:(1)AlpacaEval2,(2)MT-Bench,(3)LIMA,(4)HH-RLHF-redteam和(5)MaliciousInstruct。
Analysis
人工评估:
GPT评估:
GPT-4 GPT-3.5
-
URIAL 的表现优于无需调整对齐的基线方法。
-
当基础 LLM 很强时,URIAL 甚至比 SFT 和 RLHF 表现更好。
-
对齐的 LLM 可能会忘记知识并变得过于敏感。如图B.1、B.2
Q:URIAL 对上下文示例的选择敏感吗?
使用 Mistral-7b 对 URIAL 进行了三个不同示例的测试。我们发现整体性能甚至比默认版本(4.63 vs. 4.64)还要好一点。这表明 URIAL 对所提供的 ICL 示例的变化具有鲁棒性。
Q:URIAL 能处理多轮对话吗?
只需将之前的聊天记录作为新的上下文示例附加到 URIAL 中,即可促进多轮聊天。我们在附录 B.3 中提供了一个使用 URIAL 进行多轮对话的案例研究。这表明对齐 LLM 的对话能力可能主要来自基础模型本身。
总结
- URIAL 是一种无需调整即可对齐基础 LLM 的强大基线方法。它极其易于实现且完全可重现,从而有助于开发和评估未来无需调整和基于调整的对齐方法。
- URIAL 可以用最小的努力对齐极大的 LM(例如 Llama-2-70b、Falcon-180b)。 对这种极大的模型进行微调需要大量的计算资源和时间;URIAL 无需调整即可对齐它们,从而节省了两者。
- URIAL 可用于在预训练过程中频繁评估基础 LLM。它使我们能够在基础 LLM 的预训练阶段监控基础 LLM 的质量。
- URIAL 能够根据不同基础 LLM 的对齐潜力对其进行公平比较。 对齐的 LLM 之间的比较不能直接反映其基础对应物的质量,因为调整过程可能有很大差异(例如,数据、超参数等)。
- URIAL 可用于探索 LLM 对齐的科学性。它表明我们应该重新考虑当前的对齐实践并提倡更有效的方法。URIAL 使我们能够探测基础 LLM——分析基础 LLM 在预训练期间已经获得的知识和技能,以确定对齐缺少什么,而不是盲目地使用大量数据进行微调并产生不必要的计算成本。