Основні поняття
低リソースデータセットでの事前学習済み言語モデルのファインチューニングにおける安定性と汎化性能を向上させるための注意重点付きウェイトミックスアップメカニズムを提案し、バイレベル最適化フレームワークを使用してタスクウェイトと注意パラメータを学習することで、優れたパフォーマンスを実証した。
Анотація
概要
事前学習済み言語モデル(PLMs)のファインチューニングは、低リソースデータセットでの安定性と過適合への挑戦を解決するために新しい手法が提案されている。
イントロダクション
PLMsのファインチューニングは不安定性や過適合などの課題があり、従来の方法ではこれらを克服するために特定のサブネットワークを効果的に選択している。
方法
ウェイトをタスクウェイトと事前学習済みウェイトの混合物として表現し、バイレベル最適化フレームワークでタスクウェイトと注意パラメータを学習することで、安定性とパフォーマンスが向上した。
結果
GLUEベンチマークデータセットで多くの実験を行い、提案手法が他手法よりも優れていることを示した。
Статистика
バイレベル最適化フレームワークによるタスクウェイトおよび注意パラメータの学習:バイレベル最適化は2つの異なるトレーニングデータセット分割で行われました。
提案手法は他手法よりも平均得点が6.43%から1.68%向上しました。
Цитати
"Each weight is represented as a mixup of task-specific weight and pretrained weight, controlled by a learnable attention parameter."
"Our method demonstrated its effectiveness across several challenging datasets from the GLUE benchmark, outperforming baselines in low-resource scenarios."