Belangrijkste concepten
視聴覚質問応答(AVQA)は複雑な多モーダル推論タスクであり、オーディオ・ビデオ入力ペアに基づいて自然言語クエリに正確に応答することを要求する。しかし、一般的なAVQAアプローチは、データセットの偏りを過剰に学習してしまい、頑健性が低下してしまう。さらに、現在のデータセットでは、これらの手法の正確な診断ができない。
Samenvatting
本論文では、まず、MUSIC-AVQA-Rと呼ばれる新しいデータセットを提案する。これは2つのステップで作成されている:公開データセット(MUSIC-AVQA)のテストスプリットの質問を言い換え、その後、分布シフトを導入してクエリを分割する。前者は大規模で多様なテストスペースを生み出し、後者は頻度の高い質問と低い質問の両方に対する包括的な頑健性評価をもたらす。
次に、多面的サイクル共同除去戦略を利用して偏りを克服する頑健なアーキテクチャを提案する。実験結果は、このアーキテクチャが両方のデータセットで最先端のパフォーマンスを達成し、特に提案データセットでは9.68%の大幅な改善を示すことを示している。さらに、広範な除去実験を行い、除去戦略の有効性を検証する。加えて、既存の多モーダルQA手法の限られた頑健性を、提案データセットを通じて強調する。
Statistieken
現在のAVQAデータセットの質問は、限られた数の事前定義されたテンプレートを使って生成されており、実世界のシナリオとは一致していない。
現在のデータセットでは、稀なサンプルに対するパフォーマンスを反映できていない。これは頑健性評価の重要な指標である。
既存の手法であるSTGは、言い換えられた質問に対して頑健ではない可能性がある。これは、重要な質問語と答えの間の統計的規則性を記憶してしまうことが原因と考えられる。