Core Concepts
指示の追従能力を向上させるためのスケーラブルな手法を提案する。
Abstract
1. 導入
大規模な言語モデルを指示に従うように微調整する必要性がある。
人間注釈付きデータの収集はスケーリングが難しい。
自己トレーニングアルゴリズムを開発して高品質なトレーニング例を作成する方法を提案。
2. 方法
ベース言語モデル、少量のシードデータ、未ラベル化された例にアクセスすることを前提とする自己トレーニングアプローチ。
自己増強:未ラベル化されたデータから指示生成。
自己キュレーション:高品質な例を選択して基本モデルを微調整。
3. 実験結果
HumpbackモデルはAlpacaリーダーボードで他の非蒸留モデルよりも優れたパフォーマンスを示す。
指示バックトランスレーション法は言語モデルが自分自身の指示追従能力を向上させる効果的な手法であることが示されている。
4. 関連研究
言語モデルへの指示チューニングに関する広範囲な取り組みが存在する。
高品質な人間書き込みテキストから学習例を生成する手法が採用されている。
Stats
我々の手法はAlpacaリーダーボードで最高性能を達成した。
Humpbackモデルは他の非蒸留モデルよりも優れたパフォーマンスを発揮した。