本論文は、セマンティクスに基づく適応スパース活性化を用いて大規模言語モデル(LLM)の推論を高速化する手法であるCoreInferを提案する。LLMは、その高い計算コストとメモリ需要が課題となっており、特に推論時には深刻な問題となる。CoreInferは、文レベルの意味情報を活用することで、従来のトークンレベルのスパース活性化手法と比較して、精度を維持しながら大幅な高速化を実現する。
近年、数十億のパラメータを持つLLMが、自然言語処理の分野に革命をもたらしている。しかし、その膨大な計算コストとメモリ需要は、特に推論時において、実用上の大きな課題となっている。この問題に対処するために、従来の研究では、モデル圧縮や動的活性化スパース推論などの手法が提案されてきた。しかし、モデル圧縮は、モデルの精度と効率性の間でトレードオフが生じるという問題があり、動的活性化スパース推論は、トークンごとに活性化マップを予測する必要があるため、計算コストが大きくなってしまうという問題があった。
CoreInferは、文レベルの意味情報を活用することで、従来のトークンレベルのスパース活性化手法の課題を解決する。具体的には、CoreInferは、各文に対して、その文の処理に最も重要なニューロンの集合である「コアニューロン」を定義する。そして、文の意味情報に基づいてコアニューロンを予測することで、推論時に活性化するニューロン数を大幅に削減する。
本論文では、コアニューロンと文の意味情報の間には強い相関関係があることを実験的に示している。具体的には、文の意味が安定している場合、コアニューロンは文の長さが増加してもほとんど変化しないことがわかった。また、異なる文間で意味的な類似性が高い場合、それらの文のコアニューロンも類似していることがわかった。
本論文では、様々なタスクとモデルを用いてCoreInferの性能を評価している。その結果、CoreInferは、従来のスパース活性化手法と比較して、精度を維持しながら最大10倍の高速化を実現することがわかった。
CoreInferは、文レベルの意味情報を活用することで、LLMの推論を高速化する効果的な手法である。CoreInferは、従来のトークンレベルのスパース活性化手法と比較して、精度を維持しながら大幅な高速化を実現する。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor