核心概念
大規模データセットを必要とする深層学習モデルの学習を効率化するため、ラベルの不整合を解消し、学習パターンを調整することで、データセット蒸留の性能を向上させる手法を提案する。
要約
本稿は、ECCV-2024 Data Distillation Challenge (track 1) において1位を獲得した解法である、Modified Difficulty-Aligned Trajectory Matching (M-DATM) について解説する研究論文である。
研究目的
大規模データセットを用いた深層学習モデルの学習は、計算資源や時間的コストが大きいという課題がある。本研究では、データセット蒸留 (DD) において、既存手法である Difficulty-Aligned Trajectory Matching (DATM) を改良することで、より高精度な蒸留を実現することを目的とする。
手法
本研究では、DATM に対して以下の2つの改良を加えた M-DATM を提案する。
- ソフトラベルの除去: DATM では蒸留過程でソフトラベルを用いるが、評価スクリプトで生成されるラベルとの不整合が発生し、性能低下を引き起こす。M-DATM ではソフトラベルを用いずに、デフォルトのラベル順序でデータセットを直接最適化する。
- マッチング範囲の調整: DATM は Tiny ImageNet データセットにおいて、学習の後半で複雑なパターンを学習しようとしてしまい、最適化が困難となる。M-DATM ではマッチング範囲を調整することで、より容易なパターンに集中させて学習させる。
実験結果
CIFAR-100 および Tiny ImageNet データセットを用いた実験の結果、M-DATM は DATM を上回る精度を達成した。特に Tiny ImageNet においては、ソフトラベルの除去とマッチング範囲の調整により、大幅な性能向上が見られた。
結論
本研究では、ラベルの不整合解消と学習パターン refinement により、データセット蒸留の性能を向上させる手法である M-DATM を提案した。M-DATM は ECCV-2024 DD challenge において1位を獲得し、今後のデータセット蒸留研究の重要なベースラインとなることが期待される。
統計
M-DATMはCIFAR-100データセットにおいて40.61%の精度を達成した。
M-DATMはTiny ImageNetデータセットにおいて18.31%の精度を達成した。
DATMにソフトラベル除去(M1)を加えることで、CIFAR-100データセットにおいて精度は31.11%から39.90%に向上した。
DATMにソフトラベル除去(M1)とマッチング範囲調整(M2)を加えることで、Tiny ImageNetデータセットにおいて精度は7.10%から18.31%に向上した。
引用
"the soft labels learned by DATM do not achieve one-to-one correspondence with the labels generated by the official evaluation script"
"the removal of soft labels will additionally restrict the information capacity of the synthetic dataset"
"we reduce the matching range to (T−,T+)=(0,20) to let the synthetic dataset concentrate on easier patterns"