視聴覚質問応答(AVQA)は複雑な多モーダル推論タスクであり、オーディオ・ビデオ入力ペアに基づいて自然言語クエリに正確に応答することを要求する。しかし、一般的なAVQAアプローチは、データセットの偏りを過剰に学習してしまい、頑健性が低下してしまう。さらに、現在のデータセットでは、これらの手法の正確な診断ができない。