Core Concepts
DSSフレームワークを情報理論的視点から再調査し、情報ボトルネックを使用してモデルの強化を提案しました。
Abstract
知識蒸留は、大きな、複雑なモデルから小さなものに知識を移す技術であり、効率的なAI展開に向けた重要なステップです。DSSはCoT蒸留を導入し、小さなモデルに上位推論能力を与えることで約束されています。しかし、DSSは2つのトレーニングタスク間の相互関係を見落としており、CoT知識とラベル予測タスクの効果的な統合が困難です。私たちは2つのタスク間の相互関係を調査し、それらの表現特徴量の相互情報量を最大化することでこの最適化問題を解決する変分アプローチを提案します。実験結果は、当社の手法が最先端のDSSよりも優れていることを示しています。
Stats
DSSはANLIで49.58%、CQAで63.29%の精度を達成した。
当社手法はANLIで51.20%、CQAで68.00%の精度を達成した。
DSSはe-SNLIで42.80%、SVAMPで48.00%の精度を達成した。
当社手法はe-SNLIで43.70%、SVAMPで52.50%の精度を達成した。
Quotes
"我々が提案する方法では、ラベル予測と根拠生成タスク間の相互情報量を最大化することによってCoT蒸留プロセスが自動的に最適化されます。"
"私たちの方法はDSSよりも優れており、小さなモデルの推論能力が向上します。"