核心概念
本文提出了一種名為 CLIP-VG 的新型視覺定位方法,該方法利用自定進度的課程學習策略,將預先訓練好的 CLIP 模型適應於視覺定位任務,並在無需人工標註數據的情況下,有效地利用偽標籤來提高模型的性能。
摘要
CLIP-VG: 利用自定進度的課程學習將 CLIP 模型應用於視覺定位
Xiao, L., Yang, X., Peng, F., Yan, M., Wang, Y., & Xu, C. (2023). CLIP-VG: Self-paced Curriculum Adapting of CLIP for Visual Grounding. IEEE Transactions on Multimedia, 26, 1-14.
本研究旨在解決現有非監督式視覺定位方法對偽標籤質量過度依賴的問題,並探索如何有效地將預先訓練好的視覺語言模型(例如 CLIP)應用於視覺定位任務。