핵심 개념
CLIPを活用したCDULの提案は、多ラベル画像分類において優れた性能を発揮します。
초록
この論文では、CLIPを使用した新しい無監督学習方法であるCDULが提案されています。CDULは、画像全体と各スニペットのグローバルおよびローカルな類似性ベクトルを統合するアグリゲーション戦略を使用して、高品質な擬似ラベルを生成し、これらの擬似ラベルを使用して分類ネットワークをトレーニングします。実験結果は、CDULが最先端の無監督学習方法よりも優れたパフォーマンスを達成することを示しています。
통계
CDULは他の無監督学習方法よりも+6.0%〜+2.1%の改善を達成しています。
COCOデータセットでオリジナルCLIPのmAPは65.3%です。
CDLAはCODよりも計算コストが低く、オブジェクトが一部隠れている場合でも有効です。
인용구
"During initialization, the goal is to appropriately initialize the pseudo labels for the unobserved labels on each training image."
"Extensive experiments show that our method outperforms state-of-the-art unsupervised methods."
"In contrast, weakly supervised models assume that all provided partial labels are correct and can be trusted for training."