Core Concepts
言語モデルの指示に対する適応性を高めるために、ターゲットの指示分布に合わせて高品質な合成データを生成する。
Abstract
本論文は、言語モデルの指示に対する適応性を高めるための効率的な合成データ生成フレームワークであるCodecLMを提案している。
まず、強力な言語モデルを用いて、指示のメタデータ(使用例とスキル)を抽出する。次に、このメタデータを用いて、ターゲットの指示分布に合わせて合成データを生成する。
合成データの生成では以下の2つの手法を導入している:
- Self-Rubrics: メタデータに基づいて、指示の複雑さを調整するためのルーブリックと行動を自動生成する。
- Contrastive Filtering: 強力な言語モデルとターゲットの言語モデルの応答の質の差を利用して、ターゲットモデルの弱点を補強する効果的な指示-応答ペアを選択する。
提案手法は、4つの代表的なベンチマークで最新の手法を上回る性能を示しており、ターゲットの指示分布に合わせて高品質な合成データを生成できることを実証している。
Stats
強力な言語モデルとターゲットの言語モデルの応答の質の差が大きい場合、ターゲットモデルの性能が大きく向上する。
合成データの生成において、最初の1回のイテレーションで全体の70%以上のデータが生成される。
Quotes
"Instruction tuning has emerged as the key in aligning large language models (LLMs) with specific task instructions, thereby mitigating the discrepancy between the next-token prediction objective and users' actual goals."
"To reduce the labor and time cost to collect or annotate data by humans, researchers start to explore the use of LLMs to generate instruction-aligned synthetic data."