Core Concepts
データ剪定における知識蒸留の重要性と効果を探求する。
Abstract
データ剪定はニューラルネットワークの訓練用データセットのサイズが増加するにつれて注目を集めている。
現在のデータ剪定アルゴリズムは、高い剪定率でモデルの精度を保持する能力に制限がある。
知識蒸留(KD)を組み込んだデータ剪定アプローチは、さまざまなデータセットや剪定方法で顕著な改善を示す。
KDを使用することで、ランダムな剪定が他の洗練された方法よりも優れた結果をもたらすことが示されている。
剪定因子とKD重みの最適な関係性が提案され、ラベルノイズや低品質サンプルへの影響を軽減する。
Stats
CIFAR-100でランダムな剪定により、KDを使用した場合、10%で17%の精度向上が見られた。
ImageNetでは、ランダムな剪定によりTop-5精度が20%向上した。
Quotes
"Using KD, simple random pruning is comparable or superior to sophisticated pruning methods across all pruning regimes."
"We demonstrate a crucial connection between the pruning factor and the optimal knowledge distillation weight."