大規模データセットから重要なサンプルのみを選択して蒸留する「プルーニングファースト、蒸留アフター」フレームワークは、従来の手法と比較して、より質の高い蒸留データセットを生成し、特に未知のアーキテクチャに対する汎化性能を大幅に向上させる。
従来のクラス特化型データセット蒸留のパラダイムは、蒸留量の非効率な利用とクラス間特徴の軽視という制限があるため、本論文では、クラス間特徴補償器(INFER)を用いた新しい「全クラス対応インスタンス」パラダイムを提案する。
複雑なデータセットにおけるデータセット蒸留の性能を向上させるために、Grad-CAMを用いて重要な識別領域を強調する新しい手法、EDFを提案する。
大規模データセット蒸留において、従来手法では膨大な容量のソフトラベルが必要とされてきたが、クラス内サンプル多様性を向上させることで、ソフトラベルの必要容量を大幅に削減できる。
大規模データセットを必要とする深層学習モデルの学習を効率化するため、ラベルの不整合を解消し、学習パターンを調整することで、データセット蒸留の性能を向上させる手法を提案する。
データセット蒸留において、エージェントモデルが抽出・埋め込む情報と、圧縮率に合致した情報の間に不整合が生じることがあり、蒸留データセットの品質低下につながる。本稿では、この問題に対処するため、抽出・埋め込みの両段階において情報のアラインメントを重視した手法「PAD」を提案する。
大規模データセットを効率的に蒸留するための新しいフレームワークであるTeddyは、テーラー近似マッチングを用いて従来のbi-level最適化問題を簡素化し、計算コストを大幅に削減しながらも、既存手法を凌駕する性能を実現します。
大規模なWi-Fiデータセットを、元のデータセットに近い性能を維持しながら、より小さなデータセットに圧縮する新しい手法「WiDistill」を提案する。
データセット蒸留(DD)における、異なるニューラルネットワークアーキテクチャ間での転移学習の課題を克服するため、メタ特徴と異種特徴を分離し、アーキテクチャに依存しない損失関数を用いることで、多様なNNアーキテクチャ間で汎用性の高い蒸留データセットを生成するMetaDD手法を提案する。
データセット蒸留では、合成データセットの多様性を高めることが重要である。提案手法の動的重み調整は、合成データの多様性を高め、効率的なデータセット蒸留を実現する。