Core Concepts
事前プロンプトに基づいて一意の専門家を選択することで、様々なアクティベーション関数を持つLLMにおいても効率的な生成を実現する。
Abstract
本論文では、LLMの効率的な生成を実現するための新しい手法「GRIFFIN」を提案している。LLMの中間層であるフィードフォワード(FF)ブロックでは、トークン間で相対的なアクティベーションの大きさが共通する傾向(フロッキング)が観察される。GRIFFINはこのフロッキングを利用し、事前プロンプトに基づいて一意の専門家を選択することで、トレーニングを必要とせずに様々なLLMに適用可能な効率的な生成を実現する。
実験の結果、GRIFFINは50%のFF層パラメータを削減しつつ、分類タスクや生成タスクの性能を維持できることを示している。さらに、LLama 2 13BやGemma 7Bなどのモデルにおいて、1.25倍の高速化を達成できることを確認した。また、専門家の選択方法や系列長の影響など、GRIFFINのさまざまな特性についても分析を行っている。
Stats
Llama 2 13Bモデルでは、13Bのパラメータから8.8Bに削減できる
Gemma 7Bモデルでは、8.5Bのパラメータから5.4Bに削減できる
Quotes
"LLMの中間層であるフィードフォワード(FF)ブロックでは、トークン間で相対的なアクティベーションの大きさが共通する傾向(フロッキング)が観察される。"
"GRIFFINはこのフロッキングを利用し、事前プロンプトに基づいて一意の専門家を選択することで、トレーニングを必要とせずに様々なLLMに適用可能な効率的な生成を実現する。"