toplogo
Sign In

画像ラベルの検証と弱教師付き物体検出におけるキャプションからの抽出ラベルの処理方法


Core Concepts
大規模なビジョン言語データセットを使用して、キャプションから抽出されたラベルを検証し、弱教師付き物体検出(WSOD)を改善する手法。
Abstract
大規模なビジョン言語データセットは物体検出に制限がある。 VEIL技術はキャプションから抽出されたラベルを検証し、WSODを改善する。 CLaNデータセットで異なる種類のラベルノイズと言語的指標を分析。 VEILは他の基準よりも優れた結果を示す。
Stats
大規模なビジョン言語データセットが物体検出に与える影響:30%向上(31.2〜40.5 mAP) VEILは9つの基準よりも30%向上したことが示されている。
Quotes
"Caption context can be used to vet extracted labels from caption context." "VEIL outperformed nine baselines representative of current noise filtering techniques."

Key Insights Distilled From

by Arushi Rai,A... at arxiv.org 03-12-2024

https://arxiv.org/pdf/2303.09608.pdf
VEIL

Deeper Inquiries

異なるカテゴリー間での一般化能力についてどのように評価できますか?

異なるカテゴリー間での一般化能力は、モデルが新しいカテゴリーに適応する際の性能を示す重要な指標です。この評価は、既存のクリーンなラベルと混合されたノイズラベルから成るデータセットを使用して行われます。まず、クリーンなラベルだけを使用した場合と、VEIL(Vetting Extracted Image Labels)によってフィルタリングされた後の性能を比較します。その後、未知のオブジェクトカテゴリーセット(OOD)と既知のオブジェクトカテゴリーセット(ID)を定義し、これらを用いてさらに評価を行います。結果的に、VEILが未知のカテゴリーでも優れたパフォーマンスを発揮することが期待されます。
0