本文提出了一項新的任務,即從第一人稱視角的互動中探索3D場景的可用性。這項任務面臨著空間複雜性和對齊複雜性的挑戰。為了解決這些挑戰,作者提出了Ego-SAG框架,它利用互動意圖來引導模型關注與互動相關的子區域,並通過雙向查詢解碼器機制對不同來源的可用性特徵進行對齊,從而揭示3D場景的明確可用性。此外,作者還介紹了一個新的數據集VSAD,涵蓋了17種常見的可用性類別和16種不同的互動目標,為這項任務提供了一個全面的基準。實驗結果表明,Ego-SAG在VSAD數據集上顯著優於其他代表性方法。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询