Core Concepts
大規模な言語モデル(LLM)トレーニングの指示調整フェーズにおけるスケーラビリティの課題を克服する新しい方法論であるLAB(Large-scale Alignment for chatBots)が、高品質な合成データ生成プロセスとマルチフェーズのチューニングフレームワークを活用して、高価な人間注釈やGPT-4などのプロプライエタリモデルへの依存を大幅に削減し、競争力のある性能を実現することができることを示しています。
Abstract
この研究では、LABメソッドがLLAMA-2-13BおよびMISTRAL-7Bという2つの異なるオープンモデルに実装され、LABRADORITE-13BとMERLINITE-7Bという2つのLABに合わせられたモデルが生み出されました。これらは、他の同じ基本モデルを使用したモデルと比較して、最先端のパフォーマンスを達成しました。特にMT-Benchでは、LABRADORITE-13Bは現在最高水準であるLLAMA-2-13B上で微調整された最良モデルよりも優れたパフォーマンスを発揮しました。また、MERLINITE-7BはMISTRAL-7B上で微調整された最良モデルよりも優れた結果を示しました。
Stats
LABRADORITE-13B: 7.23† MT-Bench, 58.89 MMLU, 61.69 ARC, 83.15 HellaSwag, 79.56 Winogrande, 40.11 GSM8k
MERLINITE-7B: 7.66‡ MT-Bench (平均), 64.88 MMLU, 63.99 ARC, 84.37 HellaSwag, 78.24 Winogrande, 44.58 GSM8k
Quotes
"この研究では、我々は新しいSDGパイプライン「knowledge-SDG」を考案しました。"
"我々は従来通り知識源から生成された回答が信頼性があり続けるようにするために、「knowledge-SDG」でも教師モデルを評価者として利用します。"