核心概念
提出一種稱為CLanG的對比語言事件圖表示學習方法,以捕捉與多個物件相關的階層性事件表示,從而增強因果和時間推理能力,提高影片問答的性能。
摘要
本文提出了一種稱為CLanG的方法,用於在影片問答任務中捕捉與多個物件相關的階層性事件表示。
首先,作者初始化了一個由多個物件節點組成的密集鄰接矩陣,構建了一個多物件事件圖。然後,作者設計了一個多層GNN-cluster模塊,通過對圖進行多尺度的池化和表示學習,獲得了多物件階層性事件表示。為了增強模型的學習能力,作者還引入了對抗性圖表示學習和語言-事件圖對比學習的策略。
最後,作者在三個具有挑戰性的影片問答數據集上對CLanG進行了評估,結果顯示CLanG在因果和時間推理問題上的表現優於強基線方法,尤其在處理涉及多個物件的複雜事件場景時表現突出。
統計資料
本文提出的CLanG方法在NExT-QA數據集上的測試準確率為61.21%,在TGIF-QA-R數據集上的狀態轉換問題類型的測試準確率為72.4%。
引述
"CLanG-RoBERTa在因果推理問題上的驗證集準確率達到59.15%,超過MIST-CLIP 3.3%,表明其在從RoBERTa模型中提取語言事件圖表示的能力。"
"CLanG-BERT與CLanG-RoBERTa的比較表明,強大的大規模語言模型可以通過語言事件圖對比學習提升性能。"