クラス条件付きプロンプティングを用いることで、バイパーティット マッチングの安定性を向上させ、クロスモーダル注意機構の有効性を高めることができる。
既存の音声-視覚ソースロケーリゼーションベンチマークには、視覚的手がかりのみで音源を正確に特定できるという重大な問題が存在する。
大規模な事前学習済みマルチモーダルモデルを使用することで、音声-視覚一般化ゼロショット学習の性能を大幅に向上させることができる。