Core Concepts
本研究では、事前学習済みの通常のTransformerモデルを線形計算量のモデルに変換する新しい手法「DiJiang」を提案する。Discrete Cosine Transform (DCT)を用いた周波数領域でのカーネル化により、大幅な計算コストの削減と推論速度の向上を実現する。
Abstract
本研究では、Transformerアーキテクチャの注意機構を効率的に近似する新しい手法「DiJiang」を提案している。
まず、Bochnerの定理を用いて、元の注意機構の計算をフーリエ変換に関する積分計算に等価化する。次に、従来のモンテカルロ法ではなく、より効率的な加重準モンテカルロ法を用いて、この積分を近似する。さらに、高速な離散コサイン変換(DCT)を用いて、この近似を周波数領域で行うことで、計算量を大幅に削減する。
具体的には、以下の手順で実現している:
加重準モンテカルロ法を用いて、ガウシアンカーネルを効率的に近似する。
DCTを用いて、この近似をさらに効率化する。
事前学習済みのTransformerモデルに対して、この近似を適用することで、線形計算量のモデルに変換する。
実験の結果、提案手法「DiJiang」は、元のTransformerモデルと同等の性能を維持しつつ、学習コストを1/10以下に、推論速度を10倍以上に高速化できることを示した。大規模言語モデルの効率化に大きな貢献が期待できる。
Stats
提案手法DiJiangは、元のTransformerモデルと比べて、学習コストを1/10以下に削減できる。
DiJiangの推論速度は、元のTransformerモデルの約10倍高速である。