Core Concepts
大規模言語モデルにおいて、低ランクモジュールを導入し、導関数フリー最適化手法を使用して効率的な最適化を実現する方法が提案された。
Abstract
大規模な言語モデルにおいて、低ランクモジュールを各自己注意層に組み込み、各層ごとにこれらのモジュールを交互に最適化する新しい手法が提案されました。この手法は既存の勾配ベースのパラメータ効率チューニングや導関数フリー最適化手法よりも優れた性能を示し、GPUメモリ使用量が少なく収束速度も速いことが示されました。具体的な実験結果では、提案手法は多様なタスクや言語モデルで優れた改善を実現しました。
Stats
パラメータ効率チューニング方法(He et al., 2022; Houlsby et al., 2019; Chen et al., 2022b,a)はGPUメモリ要件を約30%削減できる。
黒箱チューニング方法(Sun et al., 2022b,a; Zhao et al., 2023; Xu et al., 2023; Oh et al., 2023)は勾配計算やバックプロパゲーション不要で少数ショット設定で同等の性能を発揮する。
提案手法はRoBERTa-largeにおいて既存の勾配ベースパラメータ効率チューニング方法(例:Adapter tuning、LoRA、P-Tuning v2、BitFit)や導関数フリー最適化方法(例:BBT、GAP3、BBTv2)よりも優れた性能を示した。
Quotes
"Much effort has recently been devoted to utilizing the derivative-free optimization method to eschew the computation of gradients and showcase an augmented level of robustness in few-shot settings."
"Our proposed method achieves substantial improvement and exhibits clear advantages in memory usage and convergence speed compared to existing gradient-based parameter-efficient tuning and derivative-free optimization methods in few-shot settings."