核心概念
本研究は、音声と視覚の3つの階層的な相互作用を同時に探索することで、従来の手法を大幅に超える音声駆動ピクセル単位の映像セグメンテーションの性能を実現した。
要約
本研究は、音声駆動ピクセル単位の映像セグメンテーション(Audio-Visual Segmentation, AVS)タスクに取り組んでいる。AVSは、ビデオ内の音声を起点として、発音源となる物体をピクセル単位で特定するタスクである。
本研究では、以下の3つの階層的な相互作用を同時に探索することで、従来手法を大幅に超える性能を実現した:
ピクセル単位の相互作用(Pixel Entanglement)
基礎モデルの知識を活用して、より精度の高い視覚特徴を生成するSiam-Encoder Moduleを提案
音声-視覚の相互作用(Modality Entanglement)
双方向の音声-視覚融合を行うBilateral-Fusion Moduleを提案
時間的な相互作用(Temporal Entanglement)
時間的な整合性を高める適応的な時間間整合性損失関数を導入
これらの提案手法を組み合わせたCOMBOモデルを評価したところ、従来手法を大幅に上回る性能を示した。特に、AVSBench-objectデータセットのS4タスクで84.7 mIoU、MS3タスクで59.2 mIoUを達成し、AVSBench-semanticデータセットのAVSSタスクで42.1 mIoUを達成した。
統計
音声駆動ピクセル単位の映像セグメンテーションタスクでは、従来手法を大幅に上回る性能を示した。
AVSBench-objectデータセットのS4タスクで84.7 mIoU、MS3タスクで59.2 mIoUを達成した。
AVSBench-semanticデータセットのAVSSタスクで42.1 mIoUを達成した。
引用
"本研究は、音声と視覚の3つの階層的な相互作用を同時に探索することで、従来の手法を大幅に超える音声駆動ピクセル単位の映像セグメンテーションの性能を実現した。"
"COMBOモデルを評価したところ、従来手法を大幅に上回る性能を示した。"