核心概念
わずか2つの微調整済みモデルを用いて、高精度かつロバストな性能を実現する効率的な手法を提案する。
摘要
本論文は、大規模事前学習モデルの効率的な微調整手法を提案している。従来の手法では多数の微調整済みモデルを平均化する必要があったが、本手法では2つの微調整済みモデルのみを用いて、同等以上の性能を達成できる。
具体的には以下の知見に基づいて手法を構築している:
- 微調整済みモデルの重みは層ごとに一定の角度と大きさを持つ薄い球殻上に分布する
- 重みの中心に近いほど、ID/OOD双方の性能が向上する
- 事前学習モデルの重みを活用することで、わずか2つの微調整済みモデルから最適な重みを効率的に導出できる
提案手法「Model Stock」は、この知見に基づいて事前学習モデルと2つの微調整済みモデルの重みを組み合わせることで、高精度かつロバストな性能を実現する。実験の結果、従来手法と比べて大幅に少ない計算コストで同等以上の性能を達成できることを示している。
統計資料
微調整済みモデルの重みは層ごとに一定の角度と大きさを持つ
重みの中心に近いほど、ID/OOD双方の性能が向上する
事前学習モデルの重みを活用することで、わずか2つの微調整済みモデルから最適な重みを効率的に導出できる
引述
"わずか2つの微調整済みモデルを用いて、高精度かつロバストな性能を実現する効率的な手法を提案する。"
"微調整済みモデルの重みは層ごとに一定の角度と大きさを持つ薄い球殻上に分布する"
"重みの中心に近いほど、ID/OOD双方の性能が向上する"