本文提出了一個多模態框架,通過整合運動、音頻和外觀特徵來提高第一人稱動作識別的領域泛化能力。主要貢獻包括:
分析音頻和運動特徵對領域轉移的抗性,突出它們在領域泛化中的關鍵作用。實驗結果顯示,音頻和運動特徵的性能下降分別為32.7%和25.8%,而外觀特徵下降高達54.8%。
使用音頻敘述來增強音頻-文本對齊,提高動作表示的健壯性。相比於使用視覺敘述,音頻敘述能更好地捕捉動作的聲音特徵。
引入音頻-視覺敘述一致性評分,以優化音頻在訓練過程中的影響,減少噪音信息的干擾。
在ARGO1M數據集上取得了最先進的性能,有效地泛化到未知的場景和位置。
翻譯成其他語言
從原文內容
arxiv.org
深入探究