核心概念
通過在數據集蒸餾之前先進行基於損失值的樣本剪枝,可以去除冗餘和低價值數據,從而提高蒸餾數據集的質量和在新架構上的泛化能力。
論文信息
Moser, B. B., Raue, F., Nauen, T. C., Frolov, S., & Dengel, A. (2024). Distill the Best, Ignore the Rest: Improving Dataset Distillation with Loss-Value-Based Pruning. arXiv preprint arXiv:2411.12115v1.
研究目標
本研究旨在解決現有數據集蒸餾方法在跨架構泛化能力和數據冗餘方面的局限性,提出了一種基於損失值剪枝的數據集蒸餾方法,以提升蒸餾數據集的質量和在新架構上的性能表現。
方法
研究提出了一個“先剪枝,後蒸餾”的框架,在蒸餾之前先利用預訓練分類器對數據集進行剪枝。具體來說,該方法基於預訓練分類器對每個樣本的損失值進行排序,並根據預設的剪枝率選擇損失值最低的樣本(簡單樣本)組成核心集,然後再對核心集進行蒸餾。
主要發現
基於損失值的剪枝方法可以有效提升多種蒸餾算法(DC、DM、MTT)在新架構上的性能表現。
在多個 ImageNet 子集和不同架構上的實驗結果表明,即使進行大量的剪枝(例如,移除原始數據集的 80%),也能夠保持甚至提升蒸餾數據集的質量。
相比於保留高損失值樣本(困難樣本),優先保留低損失值樣本(簡單樣本)對於提升蒸餾效果至關重要。
主要結論
“先剪枝,後蒸餾”的框架可以有效解決數據集蒸餾中的跨架構泛化能力和數據冗餘問題。
基於損失值的樣本剪枝方法可以作為一種通用的數據預處理步驟,用於提升各種數據集蒸餾方法的性能。
研究意義
本研究提出了一種簡單有效的數據集蒸餾方法,可以顯著提升蒸餾數據集的質量和在新架構上的泛化能力,對於推動數據集蒸餾技術的發展和應用具有重要意義。
局限與未來方向
需要預先確定最佳剪枝率,這可能需要額外的計算成本。
未來可以探索自適應剪枝策略,根據數據集和目標架構的特點動態調整剪枝率。
統計資料
使用基於損失值的剪枝方法,在 ImageNet-A 和 ImageNet-B 子集上,DM 算法的準確率提升了 5.2 個百分點。
在 ImageNet-C 子集上,DM 算法的準確率提升了 3.9 個百分點。
在 ImageWoof 子集上,使用 MTT 算法和剪枝後的 GLaD 生成器,準確率比使用剪枝後的 LD3M 生成器略微提升了 0.4 個百分點。
在分辨率為 256×256 的實驗中,使用剪枝後的 LD3M 模型在 ImageNet-C 子集上平均提升了 1.1 個百分點,在 ImageNet-E 子集上平均提升了 1.5 個百分點。