Core Concepts
複数の音源や背景ノイズが存在する複雑な環境においても、音声特徴を量子化に基づいて分解することで、音声映像の相互作用を効果的に行い、音声に対応したオブジェクトのセグメンテーションを実現する。
Abstract
本論文は、複雑な環境における頑健な音声映像セグメンテーション(AVS)の実現を目的としている。
まず、複数の音源が混在する場合や背景ノイズが存在する場合、音声特徴と視覚特徴の対応付けが困難になるという課題に着目した。
そこで、音声特徴を量子化に基づいて分解する手法を提案した。具体的には、音声特徴空間を単一音源の特徴空間の直積として表現し、プロダクト量子化を用いて分解する。これにより、各分解された特徴が単一音源の意味を表すようになり、視覚特徴との相互作用が容易になる。
さらに、フレーム単位の音声特徴が不安定になるという課題に対して、クリップ単位の安定した音声特徴から局所的な音声特徴を校正する手法を提案した。
提案手法は、AVS-Object-Multiと AVS-Semanticデータセットにおいて、従来手法を大きく上回る性能を示した。特に、AVS-Semanticタスクでは21.2%のmIoUの改善を達成した。
また、可視化実験や背景ノイズに対する頑健性の分析を通して、提案手法の有効性を示した。
Stats
複数の音源が混在する場合、従来手法と比べて8.7のJ&F scoreの改善を達成した
背景ノイズが30dBの場合、従来手法と比べて7.2のmIoUの改善を達成した
Quotes
"複数の音源が関与し、背景ノイズが存在する複雑な環境では、音声特徴と視覚特徴の対応付けが困難になる"
"音声特徴を量子化に基づいて分解することで、各分解された特徴が単一音源の意味を表すようになり、視覚特徴との相互作用が容易になる"
"クリップ単位の安定した音声特徴から局所的な音声特徴を校正することで、フレーム単位の音声特徴の不安定さを改善できる"