מושגי ליבה
大規模言語モデルの推論では、膨大な計算量とメモリ使用量が課題となる。本研究では、言語に特化した語彙トリミング手法を提案し、その効果と限界を明らかにした。
תקציר
本研究では、大規模言語モデルの推論効率を向上させるため、言語に基づいた語彙トリミング手法を提案した。具体的には、ユニコードスクリプトに基づくフィルタリングと、コーパスに基づく語彙選択の2つの手法を検討した。
ユニコードスクリプトに基づくフィルタリングは、ラテン語系言語では有効に機能するが、コードミキシングを含む言語では性能が低下する。一方、コーパスに基づく選択は、より包括的な語彙を維持できるが、語彙サイズの削減効果は小さい。
大規模モデルほど、語彙サイズに対する全体パラメータ数の割合が小さくなるため、語彙トリミングによる効果は限定的となる。ただし、小規模モデルでは語彙サイズが大きな割合を占めるため、最大で50%近くのメモリ使用量削減が可能である。
また、CPU上では最大25%の推論速度向上が確認できたが、GPU上では効果が見られなかった。これは、GPUが大規模な行列演算に最適化されているためと考えられる。
全体として、提案手法は言語に応じて使い分ける必要があり、一律に適用できるわけではない。ただし、他の効率化手法と組み合わせることで、大規模言語モデルの実用化に貢献できると期待される。
סטטיסטיקה
小規模モデルでは語彙サイズが全体パラメータの50%を占める
CPU上で最大25%の推論速度向上が確認できた
GPU上では推論速度の向上は見られなかった
ציטוטים
"LLMsの展開には、膨大な計算量とメモリ要件が課題となる。"
"ユニコードスクリプトに基づくフィルタリングは、ラテン語系言語では有効だが、コードミキシングを含む言語では性能が低下する。"
"大規模モデルほど、語彙サイズに対する全体パラメータ数の割合が小さくなるため、語彙トリミングによる効果は限定的となる。"