Core Concepts
データセットのバイアスは、データセット蒸留において重要な影響を持ち、適切な対処が必要である。
Abstract
データセット蒸留(DD)は、元の大規模なデータセットから本質的な情報を保持した小さな合成データセットを生成する有望な技術である。
現在のDD方法は通常、データセットが偏りがないという前提の下で動作するが、実際には偏りが存在することがあり、これはDDに影響を及ぼす可能性がある。
この研究では、CMNIST-DDとCCIFAR10-DDという2つのバイアスのあるデータセットを構築し、それらに対してDDメソッドを適用してパフォーマンスを評価した。
実験結果から、ほとんどの場合においてデータセットのバイアスがDDに影響を与えることが示された。そのため、元のデータセット内のバイアスを特定し軽減する必要性が強調されている。
1. 導入
DDは深層学習コミュニティで注目されており、訓練負担を軽減しトレーニング効率を向上させる可能性がある。
既存のDD方法は通常、偏りのないデータセットを前提として動作する。
2. 関連研究
ディープラーニングで使用される多くのデーセトには無視できない問題点が存在する。その中でも特に重要な問題点は「デーセトバイアス」である。
3. 前提条件
デーセトバイアスや通常のDD方法ではうまく行かず、新たな定義「バイアスDD」へと進化していく。
4. バイアスDD
バイアスDDでは、「偏った属性」よりも「公平な属性」に焦点を当てつつ、「偏った属性」の影響を最小限に抑えつつ最適化問題を解決する。
5. 結論
デーセトバイアスはほとんどすべての場合においてDDに影韓し、「バイアスDD」へ進化させる必要性が示唆された。
Quotes
"Dataset Distillation (DD) is a promising technique to synthesize a smaller dataset that preserves essential information from the original dataset."
"Experimental results demonstrate that biases present in the original dataset significantly impact the performance of the synthetic dataset in most cases."