本研究旨在探討如何利用多模態大型語言模型(MLLM)提升視覺追蹤的效能。現有的視覺追蹤方法,特別是視覺語言(VL)追蹤器,由於過度依賴人工標註的文字描述,且這些描述往往存在模糊性,導致追蹤效能不佳。
本研究提出了一個名為 ChatTracker 的新型框架,該框架主要由三個模組組成:
該模組利用 MLLM 生成對前景和背景目標的準確文字描述。其核心思想是利用 VL 追蹤器的回饋,迭代地優化 MLLM 的提示,使其生成的文字描述更符合圖像內容,並更容易被 VL 追蹤器理解。
該模組利用 RPO 模組生成的文字描述,結合預先訓練好的單目標視覺追蹤器,生成前景和背景區域的候選框。
該模組根據前景候選框與前景、背景候選框以及模板的關係,選擇置信度最高的前景候選框作為最終的追蹤結果。
實驗結果表明,ChatTracker 在多個公開數據集(LaSOT、TrackingNet、TNL2K 和 OTB)上均取得了與現有方法相當甚至更優的效能。
ChatTracker 框架有效地將 MLLM 整合到視覺目標追蹤任務中,透過基於反思的提示優化模組生成更準確的目標描述,並利用語義追蹤和前景驗證模組有效地利用這些描述進行追蹤,從而顯著提升了視覺追蹤的效能。
本研究為視覺追蹤領域提供了一種新的思路,即利用 MLLM 的強大能力生成更準確的目標描述,從而提升追蹤效能。
當追蹤目標分辨率較低或缺乏明顯視覺特徵時,MLLM 難以提供準確的語言描述。此外,透過 API 訪問 MLLM 需要網路連接,這在邊緣部署中可能會遇到挑戰。未來研究可以探討如何解決這些問題,並進一步提升 ChatTracker 的效能和效率。
翻譯成其他語言
從原文內容
arxiv.org
從以下內容提煉的關鍵洞見
by Yiming Sun, ... 於 arxiv.org 11-05-2024
https://arxiv.org/pdf/2411.01756.pdf深入探究