本研究では、Transformerアーキテクチャの注意機構を効率的に近似する新しい手法「DiJiang」を提案している。
まず、Bochnerの定理を用いて、元の注意機構の計算をフーリエ変換に関する積分計算に等価化する。次に、従来のモンテカルロ法ではなく、より効率的な加重準モンテカルロ法を用いて、この積分を近似する。さらに、高速な離散コサイン変換(DCT)を用いて、この近似を周波数領域で行うことで、計算量を大幅に削減する。
具体的には、以下の手順で実現している:
実験の結果、提案手法「DiJiang」は、元のTransformerモデルと同等の性能を維持しつつ、学習コストを1/10以下に、推論速度を10倍以上に高速化できることを示した。大規模言語モデルの効率化に大きな貢献が期待できる。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Hanting Chen... at arxiv.org 04-01-2024
https://arxiv.org/pdf/2403.19928.pdfDeeper Inquiries