核心概念
ノイズラベルを含むデータストリームにおいて、正確なラベルを持つサンプルを効率的に選択し、モデルの性能と効率を向上させる。
要約
本研究では、ノイズラベルを含むデータストリームにおけるオンラインコンティニュアルラーニングの課題に取り組んでいる。
データストリームには曖昧なタスク境界とノイズラベルが存在するという前提で研究を行っている。
提案手法のNTD(Noisy Test Debiasing)は以下の3つの手順から成る:
ノイズラベルに基づいてサンプルをグループ化する
テスト時の増強(TTA)を用いて各サンプルの信頼度を評価する
データに基づくデバイアス除去を行い、エピソード記憶の中のクラスバランスを調整する
NTDは簡単に実装でき、様々なシナリオに適用可能である。
実験の結果、NTDは従来手法と比べて2倍以上の高速化と同等以上の精度を達成し、GPU メモリ使用量も1/5以下に抑えられることが示された。
統計
各タスクのデータ数は、CIFAR10が50,000、CIFAR100が50,000、mini-WebVisionが65,944、Food-101Nが52,867である。
エピソード記憶のサイズは、CIFAR10が500、CIFAR100が2,000、mini-WebVisionが1,000、Food-101Nが2,000である。
バッチサイズは16、エポック数はCIFAR10/100が256、mini-WebVision/Food-101Nが128である。