本文提出了一種稱為CLanG的方法,用於在影片問答任務中捕捉與多個物件相關的階層性事件表示。
首先,作者初始化了一個由多個物件節點組成的密集鄰接矩陣,構建了一個多物件事件圖。然後,作者設計了一個多層GNN-cluster模塊,通過對圖進行多尺度的池化和表示學習,獲得了多物件階層性事件表示。為了增強模型的學習能力,作者還引入了對抗性圖表示學習和語言-事件圖對比學習的策略。
最後,作者在三個具有挑戰性的影片問答數據集上對CLanG進行了評估,結果顯示CLanG在因果和時間推理問題上的表現優於強基線方法,尤其在處理涉及多個物件的複雜事件場景時表現突出。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania