Core Concepts
大規模データセットからより情報的な部分集合を効率的に抽出することで、高性能なモデルを低コストで学習できる。
Abstract
本論文では、大規模データセットのプルーニング手法を提案している。具体的には以下の通り:
予測の不確実性とトレーニングダイナミクスを組み合わせた新しい評価指標「Dynamic-Uncertainty (Dyn-Unc)」を提案した。これにより、単純な予測誤差や不確実性のみを考慮するよりも、より適切なサンプル選択が可能となる。
ImageNet-1Kおよび大規模なImageNet-21Kデータセットを用いて、提案手法の有効性を検証した。25%のサンプルを削減しても、元のデータセットと同等の性能が得られることを示した。
提案手法は、Swin TransformerやConvNextといった最新のモデルにも適用可能であり、さらに他のアーキテクチャにも一般化できることを確認した。
提案手法は、OOD検出の性能も向上させることが分かった。
以上より、提案手法は大規模データセットの効率的な活用に寄与できると考えられる。
Stats
大規模データセットを効率的に活用することで、計算コストを大幅に削減できる。
提案手法を用いて25%のサンプルを削減しても、元のデータセットと同等の性能が得られる。
提案手法は、Swin TransformerやConvNextといった最新のモデルにも適用可能であり、他のアーキテクチャにも一般化できる。
提案手法はOOD検出の性能も向上させる。
Quotes
"大規模データセットには多くの冗長で情報的でないサンプルが含まれており、それらはモデル学習にほとんど寄与しない。"
"データセットプルーニング(またはコアセット選択)は、これらの情報的でないサンプルを除去し、元のデータセットの情報的なサンプルを残すことを目的としている。"
"提案手法は、予測の不確実性とトレーニングダイナミクスを組み合わせた新しい評価指標「Dynamic-Uncertainty (Dyn-Unc)」を用いる。これにより、単純な予測誤差や不確実性のみを考慮するよりも、より適切なサンプル選択が可能となる。"