Grunnleggende konsepter
物体検出において、従来の物体検出モデルでは新しい物体を検出するのが難しいという課題に対し、CLIPのようなVision-Languageモデルのオープンボキャブラリー知識を直接物体検出タスクに組み込むことで、より堅牢で適応性の高い検出システムを実現できる。
Wang, Z., Zhou, W., Xu, J., & Peng, Y. (2024). SIA-OVD: Shape-Invariant Adapter for Bridging the Image-Region Gap in Open-Vocabulary Detection. In Proceedings of the 32nd ACM International Conference on Multimedia (MM’24), October 28-November 1, 2024, Melbourne, VIC, Australia. ACM, New York, NY, USA, 9 pages. https://doi.org/10.1145/3664647.3680642
本論文は、オープンボキャブラリー物体検出(OVD)タスクにおける、画像全体とRoIAlignで切り出した局所領域間の差異が原因で生じる、領域分類の精度が低いという課題に取り組むことを目的とする。