核心概念
エゴセントリックビデオの視聴覚の空間的対応関係を利用して、自己教師あり学習によって有用な表現を学習する。
要約
本研究では、エゴセントリックビデオの視聴覚の空間的対応関係を利用した自己教師あり学習手法を提案している。具体的には、ビデオフレームと双方向音声(バイノーラル音声)の対応関係を利用して、マスクされた音声部分を予測するという前提課題を設定し、それを通じて空間的な視聴覚の対応関係を学習する。
提案手法の特徴は以下の通り:
- ビデオフレームと双方向音声の対応関係を利用した前提課題を設定
- 音声のマスキング手法を工夫し、局所的な特徴と大域的な特徴の両方を学習できるようにする
- 学習した特徴を、スピーカー検出やスパシャル音声除去などの下流タスクに適用し、優れた性能を示す
実験では、エゴセントリックビデオデータセットEgoCom、EasyCom上で提案手法の有効性を確認している。提案手法は、既存の視聴覚特徴学習手法と比べて、両タスクで大幅な性能向上を達成している。
統計
視聴覚の対応関係を利用することで、スピーカー検出タスクでTalkNetとSPELLのベースラインに対して、それぞれ11.1%、4.7%の性能向上を達成した。
空間音声除去タスクでは、提案手法がSI-SDRiで0.29、STFTで0.84の性能向上を示した。
引用
"エゴセントリックビデオは、私たちが日常生活の中で周囲を知覚し、相互作用する第一人称視点を提供する。"
"視聴覚の空間的な手がかりは、特に複数人が会話する社会的な設定において重要である。"