Główne pojęcia
オープンボキャブラリオブジェクト検出のためのセルフトレーニングにおける2つの課題(ノイズの多い疑似ラベルと疑似ラベルの分布の頻繁な変化)に対処するため、2つの解決策(SAFヘッドと定期的な更新)を提案する。
Streszczenie
本研究では、オープンボキャブラリオブジェクト検出(OVD)のためのセルフトレーニングに2つの課題があることを指摘している。
ノイズの多い疑似ラベル(PL)
事前学習された言語-ビジョンモデル(VLM)から得られるPLには、位置の誤りが多い
従来のセルフトレーニングではPLの信頼度スコアでノイズを除去するが、VLMの出力スコアは位置精度の指標にはならない
PLの分布の頻繁な変化
閉じた物体検出タスクとは異なり、OVDではPLの分布がティーチャーモデルに完全に依存する
ティーチャーモデルを指数移動平均(EMA)で更新すると、PLの分布が頻繁に変化し、トレーニングが不安定になる
これらの課題に対処するため、以下の2つの解決策を提案している。
SAFヘッド
検出ヘッドを「クローズドブランチ」と「オープンブランチ」に分割
クローズドブランチはベースカテゴリの正解ラベルのみで学習し、PLの影響を受けにくい
オープンブランチは正解ラベルとPLの両方で学習し、ノベルカテゴリの検出を補完する
2つのブランチの予測を融合することで性能が大幅に向上
定期的な更新
ティーチャーモデルをEMAではなく、定期的に学生モデルで更新
これにより、PLの分布の変化を抑え、トレーニングの安定性を高める
提案手法SAS-Detは、COCO-OVDとLVIS-OVDの両ベンチマークで最先端の性能を達成している。また、疑似ラベル生成の計算コストも大幅に削減できている。
Statystyki
疑似ラベルの品質は、更新を重ねるごとに向上し、3回目の更新後には既存手法を上回る
提案手法のPL生成は、既存手法の3倍から4倍高速
Cytaty
"VLMs employed in OVD are pretrained for image-level alignment with texts instead of instance-level object detection that requires the localization ability. Thus, the confidence score from pretrained VLMs is usually not a good indicator for the quality of box locations (i.e., pseudo boxes) provided by PLs."
"Unlike closed-set tasks, OVD provides no ground truth for target categories, and thus, the supervision for target categories is fully decided by the distribution of PLs predicted by the teacher. Hence, the EMA updates change the distribution of PLs in each iteration, unstabilizing the training."