Core Concepts
ドメイン一般化の性能を向上させるために、ERM(Empirical Risk Minimization)の訓練手順を改良した新しいベースラインERM++を提案する。ERM++は、訓練量、初期化、正則化の3つの主要な原則に基づいて設計されており、従来のERM手法を大幅に上回る性能を達成する。
Abstract
本論文では、ドメイン一般化(Domain Generalization)の性能を向上させるために、Empirical Risk Minimization(ERM)ベースラインの訓練手順を改良した新しいベースラインERM++を提案している。
ERM++は以下の3つの主要な原則に基づいて設計されている:
- 訓練量(Training Amount)
- 自動的な訓練ステップ数とlearning rateスケジュールの決定(Auto-LR)
- 訓練データとバリデーションデータを合わせて使用(Full Data)
- 初期化(Initialization)
- 事前学習モデルの選択が重要であり、AugMix初期化が最も良い性能を示す
- 正則化(Regularization)
- モデルパラメータの平均化(Model Parameter Averaging)
- 新しい分類層の初期化(Warm Start)
- バッチノルムの解凍(Unfreezing BatchNorm)
- ViTの注意機構の正則化(Attention Tuning)
これらの手法を組み合わせたERM++は、従来のERM手法に比べて5%以上の性能向上を達成し、最先端の手法をも上回る結果を示した。特にViTモデルでは15%以上の大幅な性能向上が見られた。
さらに、ERM++は計算コストが低く、既存手法に比べて高効率であることも示された。
Stats
事前学習データとターゲットデータの類似度が高いほど、ERM++の性能が向上する傾向にある。
事前学習データとターゲットデータの類似度が低い場合でも、DINOv2の初期化によって高い性能を達成できる。
Quotes
"ERM has achieved such strong results while only tuning hyper-parameters such as learning rate, weight decay, batch size, and dropout."
"We therefore focus on tuning previously untuned hyper-parameters, including training amount, initialization, and additional regularizers."
"ERM++ improves the performance of DG by over 5% compared to prior ERM baselines on a standard benchmark of 5 datasets with a ResNet-50 and over 15% with a ViT-B/16, and outperforms all SOTA methods on DomainBed with both architectures."