核心概念
データセット蒸留における2つの新しい制約、クラスの中心化制約と共分散マッチング制約を提案し、特徴間および特徴内の関係を活用することで、従来手法よりも優れたパフォーマンスを実現する。
要約
本論文では、データセット蒸留における2つの主要な課題に取り組む。
1つ目の課題は、合成データセット内のクラス間の特徴分布が分散しており、クラス識別性が低いことである。これに対して、クラスの中心化制約を提案し、クラス内の特徴をより密に集約することで、クラス識別性を向上させる。
2つ目の課題は、従来手法が特徴の平均のみを合わせているため、特徴分布の精度と包括性が不足していることである。これに対して、特徴の共分散マッチング制約を提案し、特徴間の関係を捉えることで、より正確な特徴分布の合わせを実現する。
提案手法は、SVHN、CIFAR10/100、TinyImageNetなどのデータセットで、従来手法よりも最大6.6%の性能向上を達成した。また、異なるアーキテクチャ間での汎化性も高く、最大1.7%の性能低下にとどまった。
統計
合成データセットのクラス内特徴分布が散らばっていると、クラス識別性が低下する。
特徴の平均のみを合わせるのではなく、特徴間の共分散も合わせることで、より正確な特徴分布の合わせが可能になる。
特徴次元数が大きい場合、サンプル数が少ないと共分散行列の推定が困難になる。
引用
"データセット蒸留における2つの主要な課題に取り組む。"
"クラスの中心化制約を提案し、クラス内の特徴をより密に集約することで、クラス識別性を向上させる。"
"特徴の共分散マッチング制約を提案し、特徴間の関係を捉えることで、より正確な特徴分布の合わせを実現する。"