言語モデル整列作業中「最良」と判断基準定義難しさ有りました。「最良」判断基準拡充目指す際下記ポイント着目必要:
多値評価導入:二択以上評価方式採用時各々傾斜度含む細かく評価可否情報取得容易化
長文本処理:長文本処理能力強化及び長文本特徴量抽出技術開発推進
深層学習応用:PREADD (Pei et al., 2023) 等深層学習技術活用意味有益
Prompt制御戦略:Prompt p+ 及 p- 制御戦略変更(弱/強)また両者混合版(RLCD & RLCD-Rescore) 概念構築
以上内容参考元: Bai et al., 2022a; Sun et al., 2023; Pei et al., 2023
0
Table of Content
RLCD: Reinforcement Learning from Contrastive Distillation for LM Alignment at ICLR 2024