本文提出了一項新的任務,即從第一人稱視角的互動中探索3D場景的可用性。這項任務面臨著空間複雜性和對齊複雜性的挑戰。為了解決這些挑戰,作者提出了Ego-SAG框架,它利用互動意圖來引導模型關注與互動相關的子區域,並通過雙向查詢解碼器機制對不同來源的可用性特徵進行對齊,從而揭示3D場景的明確可用性。此外,作者還介紹了一個新的數據集VSAD,涵蓋了17種常見的可用性類別和16種不同的互動目標,為這項任務提供了一個全面的基準。實驗結果表明,Ego-SAG在VSAD數據集上顯著優於其他代表性方法。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Cuiyu Liu, W... kl. arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.19650.pdfDybere Forespørgsler