Główne pojęcia
大規模言語モデル(LLM)の推論プロセスを問題分解と問題解決の2段階に分割し、分解部分をより小型のモデルに蒸留することで、推論コストを削減しながらも高い性能を維持できる。
Streszczenie
大規模言語モデルの蒸留:分割征服戦略
本論文は、大規模言語モデル(LLM)の推論プロセスにおける問題分解と問題解決の分離に着目し、分解部分をより小型のモデルに蒸留することで、推論コストを削減しながらも高い性能を維持できることを示した研究論文である。
本研究は、LLMの推論プロセスにおける問題分解能力と問題解決能力を分離し、それぞれを個別に蒸留することが可能かどうか、また、その効果を検証することを目的とする。
研究では、教師モデルとしてGPT-3.5-turboを、生徒モデルとしてVicuna-13BとMistral-7Bを用い、QA、数学、複合データセットを用いて評価を行った。具体的には、教師モデルから問題分解能力のみを蒸留した生徒モデルと、問題解決能力のみを蒸留した生徒モデルを作成し、それぞれの性能を比較した。