Core Concepts
MEGALODONは、EMAを拡張したCEMAを導入し、時系列ノーマライゼーション、正規化アテンション、pre-normの2ホップ残差構成など、MEGA
アーキテクチャの改良を行うことで、Transformerを上回る効率的な長系列モデリングを実現する。
Abstract
本論文は、Transformerの課題である quadratic 計算量と長系列への外挿性の弱さを解決するため、MEGA (exponential moving average with gated attention) アーキテクチャを改良したMEGALODONを提案する。
具体的な改良点は以下の通り:
- 複素指数移動平均(CEMA)の導入: EMAをさらに発展させ、複素数領域に拡張することで表現力を向上
- 時系列ノーマライゼーション: 系列方向の内部共変量シフトを低減
- 正規化アテンション: アテンション計算の安定化
- pre-normの2ホップ残差構成: 大規模プリトレーニングの安定性向上
これらの改良により、MEGALODON-7Bは、LLAMA2-7Bと13Bの中間的な性能を示し、Transformerベースの手法を上回る効率性と精度を達成している。長系列QAタスクなどでも優れた性能を発揮し、様々なタスクやスケールでの堅牢な改善を示している。
Stats
MEGALODON-7Bは、LLAMA2-7Bと比べて、同等の計算量で1.75から1.70へとトレーニング損失を改善した。
MEGALODON-7Bは、LLAMA2-13Bと比べても、中間的な性能を示した。
Quotes
"The quadratic complexity and weak length extrapolation of Transformers limits their ability to scale to long sequences, and while sub-quadratic solutions like linear attention and state space models exist, they empirically underperform Transformers in pretraining efficiency and downstream task accuracy."
"MEGALODON inherits the architecture of MEGA (exponential moving average with gated attention), and further introduces multiple technical components to improve its capability and stability, including complex exponential moving average (CEMA), timestep normalization layer, normalized attention mechanism and pre-norm with two-hop residual configuration."