Core Concepts
長文脈LLMsの学習において、分散メモリ効率的注意機構を用いることで、メモリ使用量を削減し、高速な学習を実現する。
Abstract
本論文では、長文脈LLMsの学習を効率的に行うための分散メモリ効率的注意機構「DISTFLASHATTN」を提案する。
主な特徴は以下の通り:
トークンレベルの負荷分散スケジューリング
因果言語モデリングによる非均一な計算負荷を解消し、GPU利用率を向上
通信と計算の重複実行
通信オーバーヘッドを隠蔽し、高速化を実現
リマテリアライゼーション対応のチェックポイント戦略
FlashAttentionの再計算を不要化し、計算時間を削減
これらの最適化により、DISTFLASHATTN は以下の性能を発揮する:
LLaMA-7Bモデルで、Megatron-LMに比べ最大1.44倍の高速化
従来手法に比べ最大8倍長い系列長をサポート
Stats
LLaMA-7Bモデルにおいて、Megatron-LMと比較して、系列長32Kで1.24倍、系列長256Kで1.26倍高速化された。
LLaMA-33Hモデルにおいて、Megatron-LMと比較して、系列長256Kで1.81倍高速化された。