Core Concepts
大規模言語モデルのサイズが増大するにつれ、推論コストが深刻な問題となっている。本研究では、モデル圧縮の手法を探索し、Transformerの後段の注意サブレイヤーを省略することで、性能を維持しつつ大幅な推論時間の短縮が可能であることを実証する。
Abstract
本研究は、急速に大型化する大規模言語モデル(LLM)の推論効率を改善する方法を探索している。
LLMは、より大きなモデルを訓練することで性能が向上するが、それに伴い推論コストも増大する問題がある。本研究では、モデル圧縮の手法に着目し、特に以下の3つの仮説を検証する。
Transformerレイヤーの削除: 深層部のレイヤーは低レベル特徴を抽出するため、重要性が低下する可能性がある。
Transformerのサブレイヤー(注意 vs. 全結合)の削除: 全結合サブレイヤーは注意サブレイヤーよりも脆弱であり、省略できる可能性がある。
選択的なTransformerレイヤーの削除: 連続するレイヤー間の出力ベクトルの類似度に基づいて、削除するレイヤーを選択する。
実験の結果、Transformerの後段の注意サブレイヤーを省略することで、性能を維持しつつ大幅な推論時間の短縮が可能であることが示された。この手法は、LLMの効率的な推論に向けた新たなアプローチとなる可能性がある。
Stats
Llama 2 7Bモデルにおいて、注意サブレイヤーを省略することで21%の速度向上が得られた。
一方、全結合サブレイヤーを省略した場合は性能が大幅に低下した。