核心概念
COATは、オプティマイザの状態とアクティベーションをFP8形式に量子化することで、大規模モデルのメモリ効率に優れたFP8トレーニングを実現する新しいフレームワークである。
要約
COAT: 大規模モデルのメモリ効率の良いFP8トレーニングのための、オプティマイザの状態とアクティベーションの圧縮手法
この論文は、大規模言語モデル(LLM)やビジョン言語モデル(VLM)などの大規模モデルのトレーニングにおけるメモリフットプリントの増大という課題に取り組むことを目的としています。
COATと呼ばれる新しいFP8トレーニングフレームワークが提案されており、これはオプティマイザの状態とアクティベーションをFP8形式に量子化することでメモリフットプリントを大幅に削減します。COATは、2つの主要な革新によってこの圧縮を実現します。
ダイナミックレンジ拡張: オプティマイザの状態分布をFP8表現範囲により厳密に合わせ、量子化誤差を削減します。
混合粒度アクティベーション量子化: テンソル単位およびグループ単位の量子化戦略を組み合わせて、アクティベーションメモリを最適化します。