Lataa Linnk AI
•
Tutkimusavustaja
>
Kirjaudu sisään
näkemys
-
多模態語言模型、視覺提示、時空推理、目標追蹤
粗略的視覺對應關係促進多模態語言模型中的時空推理能力
透過利用輕量級的目標追蹤模型來提取圖像間的粗略視覺對應關係,並將其作為視覺提示輸入多模態語言模型,可以顯著提升模型在需要時空推理能力的下游任務中的表現,例如 3D 場景理解、長影片理解和導航任務。
1