Core Concepts
大規模なビジョン言語データセットを使用して、キャプションから抽出されたラベルを検証し、弱教師付き物体検出(WSOD)を改善する手法。
Abstract
大規模なビジョン言語データセットは物体検出に制限がある。
VEIL技術はキャプションから抽出されたラベルを検証し、WSODを改善する。
CLaNデータセットで異なる種類のラベルノイズと言語的指標を分析。
VEILは他の基準よりも優れた結果を示す。
Stats
大規模なビジョン言語データセットが物体検出に与える影響:30%向上(31.2〜40.5 mAP)
VEILは9つの基準よりも30%向上したことが示されている。
Quotes
"Caption context can be used to vet extracted labels from caption context."
"VEIL outperformed nine baselines representative of current noise filtering techniques."