Concepts de base
ノイズラベル学習では、ノイズラベルの影響を最小限に抑えるため、高品質なサンプルを抽出して学習に活用することが重要である。本手法は、特徴空間とロス空間の両方の情報を活用してサンプルを選別し、さらにメタ学習を用いて半ハードサンプルを抽出することで、ロバストなネットワークの学習を実現する。
Résumé
本論文は、ノイズラベル学習のための新しい手法「Two-Stream Sample Distillation (TSSD)」を提案している。TSSD は主に2つのモジュールから構成される:
-
Parallel Sample Division (PSD) モジュール:
- 特徴空間とロス空間の両方の情報を活用して、訓練データを信頼できる「確実セット」と不確実な「不確実セット」に分割する。
- 確実セットには、高い信頼度の正例と負例が含まれる。不確実セットには、判断が難しい半ハードサンプルが含まれる。
-
Meta Sample Purification (MSP) モジュール:
- 確実セットの正例と負例をメタデータとして使用し、メタ分類器を学習する。
- この分類器を用いて、不確実セットから追加の正例を抽出する。
最終的に、確実セットの正例と不確実セットの正例を組み合わせて、ロバストなネットワークの学習に活用する。
実験の結果、提案手法はCIFAR-10/100、Tiny-ImageNet、Clothing-1Mなどのデータセットにおいて、ノイズの種類や割合に関わらず、最先端の手法を上回る性能を示した。
Stats
対称ノイズ20%のCIFAR-10データセットでは、提案手法の精度が96.7%
対称ノイズ50%のCIFAR-100データセットでは、提案手法の精度が78.1%
Tiny-ImageNetデータセットの対称ノイズ20%の場合、提案手法の精度が60.9%
Clothing-1Mデータセットでは、提案手法の精度が75.6%
Citations
"ノイズラベル学習では、ノイズラベルの影響を最小限に抑えるため、高品質なサンプルを抽出して学習に活用することが重要である。"
"本手法は、特徴空間とロス空間の両方の情報を活用してサンプルを選別し、さらにメタ学習を用いて半ハードサンプルを抽出することで、ロバストなネットワークの学習を実現する。"