Core Concepts
本論文は、2023年サウンド分離チャレンジのシネマティック分離トラックの概要を提供する。チャレンジの設定、使用したデータセット、参加者の最も成功したアプローチについて詳しく説明する。
Abstract
本論文は、2023年サウンド分離チャレンジのシネマティック分離トラックについて包括的に説明している。
まず、チャレンジの設定について詳しく述べている。参加者には、映画音声をダイアログ、効果音、音楽の3つのクラスに分離するシステムの提出を求めた。2つのリーダーボードを設けており、1つは訓練データをDnRデータセットに限定し、もう1つはどのデータでも使用可能とした。評価指標にはグローバルなSDRを使用した。
次に、使用したデータセットについて説明する。DnRデータセットは、LibriSpeech、Free Music Archive、Freesound Datasetから作成された人工的なミックスデータである。一方、隠しテストデータセットのCDXDB23は、ソニー・ピクチャーズの実際の映画から作成された。DnRとCDXDB23の間にはいくつかの違いがあり、これが参加者の課題となった。
参加者の取り組みについては、最も成功したアプローチを詳しく説明している。Leaderboard Aの優勝チームは、DnRデータのみを使用して1.8 dBの改善を達成した。一方、Leaderboard Bの優勝チームは、任意のデータを使用して5.7 dBの大幅な改善を実現した。この差は、シミュレーションデータをより現実的なシネマティックオーディオに近づけたことが大きな要因だと分析している。
Stats
映画音声のダイアログ、効果音、音楽の3クラスに分離する課題では、DnRデータセットのみを使用した最良システムが、基準となるcocktail-forkモデルに比べて1.8 dBの改善を達成した。
任意のデータを使用できるLeaderboard Bでは、最良システムが5.7 dBの大幅な改善を実現した。