本研究では、エゴセントリックビデオの視聴覚の空間的対応関係を利用した自己教師あり学習手法を提案している。具体的には、ビデオフレームと双方向音声(バイノーラル音声)の対応関係を利用して、マスクされた音声部分を予測するという前提課題を設定し、それを通じて空間的な視聴覚の対応関係を学習する。
提案手法の特徴は以下の通り:
実験では、エゴセントリックビデオデータセットEgoCom、EasyCom上で提案手法の有効性を確認している。提案手法は、既存の視聴覚特徴学習手法と比べて、両タスクで大幅な性能向上を達成している。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Sagnik Majum... lúc arxiv.org 04-16-2024
https://arxiv.org/pdf/2307.04760.pdfYêu cầu sâu hơn