Sign In

RLCD: Reinforcement Learning from Contrastive Distillation for LM Alignment at ICLR 2024

Core Concepts
RLCD proposes a method using reinforcement learning to align language models by generating preference pairs with contrasting prompts.
Abstract: RLCD introduces a method for aligning language models without human feedback. Preference pairs are created using positive and negative prompts to encourage following or violating principles. A preference model is trained to improve unaligned language models via reinforcement learning. Introduction: Reinforcement Learning from Human Feedback (RLHF) fine-tunes large language models towards desirable behaviors. RLHF relies on human-labeled pairwise preferences, which can be costly and time-consuming. Approaches like RLAIF and context distillation aim to obtain labels without human annotation. Data Generation: RLCD generates preference pairs using positive and negative prompts to encourage directional attribute change in outputs. The method aims to amplify the difference between outputs o+ and o− by encouraging opposite-directional changes on desired attributes. Experiments: RLCD outperforms RLAIF and context distillation baselines across harmlessness, helpfulness, and story outline tasks. Results show superiority of RLCD in pairwise comparisons when simulating preference data with different model scales. Related Work: Several RL approaches leveraging reward models trained on human preferences have been applied to align pretrained LLMs. Context distillation methods generate data for supervised fine-tuning by prompting a language model with different contexts.
RLAIFは、Bai et al.(2022b)と同じスコアリングプロンプトを使用して出力o1、o2をランク付けするための指示を使用します。 RLAIFのスコアリング指示には、有害性や関連する品質(社会的に受け入れられる性質、誠実さ、道徳性など)に焦点が当てられています。

Key Insights Distilled From

by Kevin Yang,D... at 03-19-2024

Deeper Inquiries


RLCDは、人間からのフィードバックを使用せずに言語モデルを整列させるための新しい手法です。このアプローチにはいくつかの重要な影響が考えられます。 コスト削減: RLCDは人間からのラベル付け作業を必要とせず、自動的にペアごとの選好データを生成するため、大規模なデータセットでも比較的低コストで実装できる可能性があります。 信頼性向上: 既存手法では人間や他の強力なLLM(Language Model)に依存していた部分が自己生成されたペアごと選好データに置き換わります。これにより、信頼性や一貫性が向上する可能性があります。 効率化: RLCDは対照的な出力ペアから学習することで、モデル同士の差異を明確化しやすくします。その結果、学習シグナルが改善されてタスクパフォーマンスも向上する可能性があります。


RLAIFおよびコンテキスト蒸留手法と比較した場合、RLCDには以下のような利点が存在します: 対立的出力生成: RLCDでは正・負プロンプトから対立する出力(o+, o-) を生成し、「望ましい属性」へ方向変更させることで出力差異化を図ります。これによりラベル精度向上や訓練効率改善が期待されます。 教師付きFine-tuning補完: コンテキスト蒸留手法同様正例(p+) のみでは不十分だった教師付きFine-tuning補完も負例(p-) を導入することで行うことで全体的な訓練シグナル増加及びタスクパフォーマンス改善も見込まれます。 高品質ラベリング: RLAIF等ではi.i.d 出力(o1, o2) データ収集時難しさ等あった問題点も解決策採用した事例多数報告されています。


言語モデル整列作業中「最良」と判断基準定義難しさ有りました。「最良」判断基準拡充目指す際下記ポイント着目必要: 多値評価導入:二択以上評価方式採用時各々傾斜度含む細かく評価可否情報取得容易化 長文本処理:長文本処理能力強化及び長文本特徴量抽出技術開発推進 深層学習応用:PREADD (Pei et al., 2023) 等深層学習技術活用意味有益 Prompt制御戦略:Prompt p+ 及 p- 制御戦略変更(弱/強)また両者混合版(RLCD & RLCD-Rescore) 概念構築 以上内容参考元: Bai et al., 2022a; Sun et al., 2023; Pei et al., 2023