Core Concepts
ノイズの多い長尾分布データから、クリーンでバランスの取れたサブセットを抽出することで、ロバストなモデル学習を実現する。
Abstract
本論文では、ノイズの多い長尾分布データから、クリーンでバランスの取れたサブセットを抽出する新しい手法を提案している。
具体的には以下の手順で行う:
自己教師あり学習によって得られた特徴表現と各クラスのプロトタイプを用いて、最適輸送問題を解くことで、各サンプルに擬似ラベルを付与する。この際、プロトタイプの分布を少数クラスに偏るように設計することで、擬似ラベルの分布がバランスの取れたものとなる。
観測されたラベルと擬似ラベルを組み合わせて、信頼できるサンプルを選別し、クリーンでバランスの取れたサブセットを抽出する。
抽出したサブセットを用いてモデルを学習することで、ノイズの多い長尾分布データに対してロバストな性能を発揮する。
提案手法は、ノイズと長尾分布の両問題を統一的に扱うことができ、実験結果からも高い性能を示すことが確認された。
Stats
長尾分布データでは、多数クラスのサンプル数が少数クラスに比べて圧倒的に多い。
ノイズラベルが含まれるデータでは、正解ラベルと観測されたラベルが一致しない。
Quotes
"Real-world datasets usually are class-imbalanced and corrupted by label noise."
"When the training dataset follows a long-tailed label distribution while contains label noise, training a robust model is even more challenging."