本論文では、音声-視覚ソースロケーリゼーション(AVSL)のベンチマークにおける重大な問題を明らかにした。具体的には、ユーザー調査とモデル実験を通じて、VGG-SSやEpic-Sounding-Objectといった代表的なAVSLベンチマークでは、音声情報なしでも90%以上の精度で音源を特定できることを示した。これは、これらのベンチマークが音声-視覚学習モデルの評価に適していないことを意味する。
VGG-SSでは、楽器や動物といった自然に音を発する物体が主要な被写体となっているため、視覚情報のみでも音源を特定できる。一方、Epic-Sounding-Objectでは、調理動作といった人の手の動きに関連する音源が多いため、単純な手-物体相互作用検出器でも高精度に音源を特定できることが分かった。
これらの結果から、既存のAVSLベンチマークには重大な視覚バイアスが存在し、音声-視覚学習モデルの評価に適していないことが明らかになった。今後のベンチマーク改善に向けて、視覚バイアスの少ないデータを選別するなどの取り組みが必要であると考えられる。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問