核心概念
大規模言語モデル(LLM)の価値観を人間に効果的に合わせるための新しいアプローチとして、弱者から強者への一般化(W2S)手法が有望である。
要約
精度を超えた弱者から強者への一般化:安全性、毒性、法的推論におけるパイロットスタディ
本研究は、大規模言語モデル (LLM) の安全性、毒性、法的推論という、従来の人間による評価が困難な複雑なタスクにおいて、弱者から強者への一般化 (W2S) 手法の有効性を検証することを目的とする。
毒性評価にはRealToxicityPromptsデータセット、法的推論にはLegalBenchデータセット、安全性評価にはAdvBenchとS-Evalを組み合わせたデータセットを使用。
GPTシリーズのモデル(GPT-1、GPT-2)を用い、GPT-2 smallを弱い教師モデル、GPT-2 mediumを強い学習者モデルとして設定。
安全性と法的推論のタスクでは、弱い教師モデルからの出力結果を用いて強い学習者モデルをファインチューニング。
毒性タスクでは、モデルサイズが毒性挙動に与える影響が小さいという知見に基づき、GPT-1とGPT-2の両方を使用。
앙サンブル学習、ソフト投票、ハード投票などの手法を用いて、弱い教師モデルからの出力結果を統合し、より高品質なラベルを生成。