核心概念
多様性ベースと不確実性ベースのサンプリング戦略を組み合わせたTCM方法は、低データレベルから高データレベルまで優れたパフォーマンスを示す。
要約
この研究では、アクティブラーニングにおける多様性ベースと不確実性ベースのサンプリング戦略を統合し、自己教師付き事前トレーニングモデルのコンテキストで新しいTCM方法を導入しています。TypiClustによる多様性サンプリングとMarginによる不確実性サンプリングを組み合わせることで、両方の戦略の強みを効果的に活用しています。TCMは、さまざまなデータセットで既存の手法を常に上回り、低データ量から高データ量まで強力なパフォーマンスを維持します。この研究では、自己教師付き事前トレーニングバックボーンモデルが利用可能な設定に焦点を当てており、TCMが明確なガイドラインを提供し、実務家が容易にアクティブラーニングを活用する方法を示しています。
統計
TCMはTypiClustとMarginよりも一貫した強力なパフォーマンスを達成します。
図1:CI-FAR10、CIFAR100、ISIC2019のすべての予算サイズに対する正解率向上(平均値と標準偏差)。
データ予算が増加するにつれて、Marginがより強力なパフォーマンスを示します。
TypiClustは低データ領域で優れたパフォーマンスを発揮し、Marginはその後に優れたパフォーマンスを示します。
引用
"TCM achieves consistently strong performance, regardless of the labeling budget and the dataset."
"Using the simple heuristics laid out by TCM, practitioners can apply active learning easily and effectively to their use case."