核心概念
本文提出了一種新的任務,即從第一人稱視角的互動中探索3D場景的可用性。這種方法可以幫助智能體更好地理解和主動參與複雜的環境,而不是依賴於預定義的語義指令。
摘要
本文提出了一項新的任務,即從第一人稱視角的互動中探索3D場景的可用性。這項任務面臨著空間複雜性和對齊複雜性的挑戰。為了解決這些挑戰,作者提出了Ego-SAG框架,它利用互動意圖來引導模型關注與互動相關的子區域,並通過雙向查詢解碼器機制對不同來源的可用性特徵進行對齊,從而揭示3D場景的明確可用性。此外,作者還介紹了一個新的數據集VSAD,涵蓋了17種常見的可用性類別和16種不同的互動目標,為這項任務提供了一個全面的基準。實驗結果表明,Ego-SAG在VSAD數據集上顯著優於其他代表性方法。
統計資料
在複雜的3D環境中,大部分區域對於互動並不重要,這會導致可用性探索過程中的模糊性。
用戶習慣、物體外觀和背景設置的差異會導致同一互動在不同視頻中呈現不同的方式,同時不同場景中相應的可用性區域在大小、位置和結構上也可能存在顯著差異。
引述
"通過建模觀察到的互動意圖與場景子區域佈局之間的關係,可以確定對特定互動最關鍵的區域。"
"利用雙向查詢解碼器機制,可以在不同模態之間提取和對齊可用性相關的上下文,從而精確地識別3D場景的可用性。"