本論文では、BAdam、すなわちブロック座標最適化フレームワークにAdamを組み込んだ最適化手法を提案している。BAdam は、モデルパラメータをD個のブロックに分割し、各ブロックをAdamを用いて逐次的に更新する。このようなブロック座標最適化スキームにより、大規模言語モデルの全パラメータファインチューニングを効率的に行うことができる。
具体的には、Llama 2-7BモデルのファインチューニングにBAdam を適用し、LoRAやLOMOと比較した実験を行った。その結果、BAdam は収束が速く、より低いトレーニングロスを達成することが示された。また、BAdam はバックプロパゲーションの計算時間を大幅に削減できることも明らかになった。さらに、ファインチューニング後のモデルをMT-benchで評価したところ、BAdam はLoRAを僅かに上回る性能を示した。
一方、RoBERTa-largeモデルのSuperGLUEベンチマークでの実験では、BAdam がAdamとほぼ同等の性能を発揮することが確認された。これらの結果から、BAdam は大規模言語モデルのファインチューニングにおいて、メモリ効率が高く、かつ高い性能を発揮する有望な手法であると考えられる。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問