Core Concepts
弱教師付き物体検出では、物体の境界ボックス注釈がないため、モデル選択が非常に困難です。本研究では、事前学習済みのRPNやCLIPなどのモデルを使って生成した擬似的な境界ボックス注釈を用いることで、より現実的なモデル選択を実現しました。
Abstract
本研究では、弱教師付き物体検出(WSOL)のモデル選択について検討しています。
WSOLでは、物体の境界ボックス注釈がないため、モデル選択が非常に困難です。従来の手法では、検証データセットに手動で注釈された境界ボックスを使用していましたが、これは現実的ではありません。
本研究では、事前学習済みのRPNやCLIPなどのモデルを使って生成した擬似的な境界ボックス注釈を用いることで、より現実的なモデル選択を実現しました。実験の結果、この擬似注釈を使ってモデルを選択しても、手動注釈を使った場合とほぼ同等の性能が得られることが分かりました。
また、モデル選択にはクラス分類の精度だけでなく、物体検出の精度も重要であることを示しました。クラス分類の精度だけでモデルを選択すると、物体検出の性能が大幅に低下してしまうことが分かりました。
本研究の提案手法により、WSOLのモデル選択をより現実的に行うことができるようになりました。今後は、医療分野など、物体検出の注釈が得られない状況でのモデル選択手法の検討が課題として残されています。
Stats
物体検出の精度(MaxBoxAcc)は、クラス分類の精度だけでモデルを選択した場合に比べ、手動注釈や擬似注釈を使った場合の方が高い。
物体検出の精度(IoU)も、クラス分類の精度だけでモデルを選択した場合に比べ、手動注釈や擬似注釈を使った場合の方が高い。
Quotes
"弱教師付き物体検出では、物体の境界ボックス注釈がないため、モデル選択が非常に困難です。"
"本研究では、事前学習済みのRPNやCLIPなどのモデルを使って生成した擬似的な境界ボックス注釈を用いることで、より現実的なモデル選択を実現しました。"
"実験の結果、この擬似注釈を使ってモデルを選択しても、手動注釈を使った場合とほぼ同等の性能が得られることが分かりました。"