本論文では、クラス条件付きプロンプティングマシン(CPM)と呼ばれる新しい音声-視覚セグメンテーション(AVS)の学習手法を提案している。CPMは、クラス非依存のクエリと、反復的に更新された生成モデルからサンプリングされたクラス条件付きクエリを組み合わせることで、バイパーティット マッチングの安定性を向上させる。
また、クラス条件付きクエリを用いて、音声スペクトログラムの雑音除去と視覚特徴マップの意味的探索を行うことで、クロスモーダル注意機構の有効性を高めている。さらに、クラス条件付きクエリを用いた新しい音声-視覚対比学習タスクを導入し、クロスモーダル表現の明示的な制約を行っている。
提案手法のCPMは、AVSベンチマークにおいて最先端の精度を達成しており、今後のAVS研究に有用な手法となることが示された。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問