Core Concepts
IceFormerは、事前学習済み変換器モデルを変更せずに、CPUでの推論時間を大幅に短縮することができる。
Abstract
本論文では、IceFormerと呼ばれる新しい手法を提案する。IceFormerは、事前学習済みの変換器モデルの推論時間を大幅に短縮することができる。従来の効率的な変換器手法とは異なり、IceFormerは事前学習済みモデルを変更することなく適用でき、高精度を維持しつつ高速な推論を実現する。
具体的には、IceFormerは以下の特徴を持つ:
事前学習済みモデルを変更せずに適用可能
様々な変換器モデルに適用可能
高精度を維持
高速な推論
IceFormerの核心は、キーとクエリーを高次元に埋め込み、k-最近傍探索を用いて重要なキーを効率的に特定することにある。これにより、変換器の自己注意機構の計算量を大幅に削減できる。
実験では、IceFormerがLRA、ZeroSCROLLS、LongEvalベンチマークにおいて、既存手法と比べて高速な推論を実現しつつ、ほぼ同等の精度を維持することを示した。特に、LLaMA 2ベースのLLMに適用した際には、2.73倍~7.63倍の高速化を達成しつつ、99.6%の精度を維持した。
Stats
提案手法IceFormerは、LRA ベンチマークにおいて、バニラ変換器と比べて平均7.63倍の高速化を達成した。
IceFormerは、ZeroSCROLLS ベンチマークにおいて、LLaMA 2ベースのLLMに適用した際に、平均2.73倍の高速化を達成した。
Quotes
"IceFormerは、事前学習済みモデルを変更せずに適用でき、高精度を維持しつつ高速な推論を実現する。"
"IceFormerの核心は、キーとクエリーを高次元に埋め込み、k-最近傍探索を用いて重要なキーを効率的に特定することにある。"