データセット蒸留は、大規模データセットを小型で代表的なデータセットに圧縮することで、データ関連コストを削減することを目的とする。従来の手法は、合成データセットの多様性を十分に考慮していなかった。
本研究では、合成データセットの多様性の重要性を理論的および実験的に分析した。BatchNormalizationの分散正則化項が多様性の鍵となることを示し、さらに動的な重み調整手法を提案した。この手法は、各バッチの合成データが元のデータセットの特徴を反映するように重みを調整する。
実験では、CIFAR、Tiny-ImageNet、ImageNet-1Kなどのデータセットで提案手法の有効性を確認した。提案手法は、わずかな計算コストで合成データの多様性を高め、従来手法を大幅に上回る性能を達成した。これにより、効率的なデータセット蒸留の実現が期待できる。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Jiawei Du, X... a las arxiv.org 09-27-2024
https://arxiv.org/pdf/2409.17612.pdfConsultas más profundas