本論文では、低ランク適応(LoRA)や重み分解低ランク適応(DoRA)などの効率的なファインチューニング手法を使用して、言語モデルのファインチューニングコストを大幅に削減できることを示している。さらに、Fast Forwardと呼ばれる新しい最適化手法を提案している。
Fast Forwardは、定期的に最小の検証セットを使ってラインサーチを行い、最適なステップサイズを選択する。これにより、標準のSGDとAdamに比べて、FLOPSを41-87%、学習時間を40-81%削減できる。
実験では、3つのファインチューニングタスクと4つの言語モデル(1.4Bから6.9Bパラメータ)で検証を行っている。すべての場合において、Fast Forwardによる効率性の向上が確認された。
一方で、Full-rank標準ファインチューニングでは、Fast Forwardは効果を発揮しない。この理由について分析し、低ランク設定における滑らかな損失面の構造がFast Forwardの効果に重要であることを示唆している。
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések