本論文では、クラス条件付きプロンプティングマシン(CPM)と呼ばれる新しい音声-視覚セグメンテーション(AVS)の学習手法を提案している。CPMは、クラス非依存のクエリと、反復的に更新された生成モデルからサンプリングされたクラス条件付きクエリを組み合わせることで、バイパーティット マッチングの安定性を向上させる。
また、クラス条件付きクエリを用いて、音声スペクトログラムの雑音除去と視覚特徴マップの意味的探索を行うことで、クロスモーダル注意機構の有効性を高めている。さらに、クラス条件付きクエリを用いた新しい音声-視覚対比学習タスクを導入し、クロスモーダル表現の明示的な制約を行っている。
提案手法のCPMは、AVSベンチマークにおいて最先端の精度を達成しており、今後のAVS研究に有用な手法となることが示された。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Yuanhong Che... alle arxiv.org 10-01-2024
https://arxiv.org/pdf/2407.05358.pdfDomande più approfondite