Core Concepts
同じ予算の下で、より小さなモデルを複数回使うことで、より大きなモデルを1回使うよりも一貫して優れたパフォーマンスが得られる。
Abstract
本研究では、コード生成タスクにおいて、予算制限下でのモデルサイズの最適化について分析を行った。
一般的な信念では、より大きなモデルが小さなモデルよりも優れたパフォーマンスを示すが、より大きなモデルはより多くの計算リソースを必要とする。
本研究では、同じ予算の下で、より小さなモデルを複数回使うことで、より大きなモデルを1回使うよりも一貫して優れたパフォーマンスが得られることを示した。
HumanEval、MBPP、APPSの各ベンチマークで評価した結果、13Bモデルが最も優れたパフォーマンスを示し、70Bモデルを上回る結果となった。
ユニットテストが利用できない場合の検討では、より大きなモデルを用いた順位付けによる候補選択が有効であるものの、より大きなモデルを単独で使う場合に及ばないことが分かった。
これらの結果は、より小さなモデルの活用の可能性と、LLM出力の順位付けアプローチの重要性を示唆している。
Stats
同じ予算の下で、13Bモデルは70Bモデルよりも最大15%優れたパフォーマンスを示した。
同じパフォーマンスを達成するのに、13Bモデルは70Bモデルの1/4~1/2の予算で済む。
13Bモデルは、最も難易度の高いAPPSのコンペティション分野で、70Bモデルに比べて約5%優れたパフォーマンスを示した。
Quotes
"同じ予算の下で、より小さなモデルを複数回使うことで、より大きなモデルを1回使うよりも一貫して優れたパフォーマンスが得られる。"
"これらの結果は、より小さなモデルの活用の可能性と、LLM出力の順位付けアプローチの重要性を示唆している。"