本研究は、事前学習言語モデルのファインチューニングにおける効率性とロバスト性の向上を目的としている。
まず、トレーニングダイナミクスの転移可能性を検証した。モデルサイズや事前学習手法が異なる場合でも、トレーニングダイナミクスは概ね転移可能であることを示した。これにより、より効率的な参照モデルを使ってデータマップを構築できる。
次に、データマップで選択されたデータでモデルをファインチューニングすると、標準的な手法よりも高速な学習が可能であることを確認した。これは、データマップが重要な訓練インスタンスを特定できているためと考えられる。
最後に、上記の知見に基づき、「Fine-Tuning by transFerring Training dynamics (FTFT)」と呼ばれる新しいファインチューニング手法を提案した。FTFT は、効率的な参照モデルの利用と、積極的な早期停止を特徴としている。実験の結果、FTFT は標準的な手法よりもロバスト性を向上させつつ、トレーニングコストを最大で50%削減できることが示された。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yupei Du,Alb... at arxiv.org 04-02-2024
https://arxiv.org/pdf/2310.06588.pdfDeeper Inquiries