Core Concepts
複数の同時発話者を聞き取りやすくするために、聴覚的マスキングを最小限に抑えるオーディオ信号処理システムを提案する。
Abstract
本論文では、多トラックオーディオの音声強化システムを提案している。このシステムは、聴覚的マスキングを最小限に抑えながら、複数の同時発話者を聞き取りやすくすることを目的としている。具体的には以下の通り:
レベルバランス調整: LUFS基準に基づいて各トラックのラウドネスを調整し、一貫した音量レベルを実現する。
PEAQ心理音響モデル: 各トラックのマスキング量を評価するために、PEAQ心理音響モデルを活用する。
最適化アルゴリズム: イコライザ、ダイナミックレンジコンプレッション、空間オーディオの各パラメータを最適化し、マスキングを最小化する。ハーモニー探索アルゴリズムを用いて反復的に最適化を行う。
客観的評価と主観的リスニングテストの結果、提案システムは既存の自動ミキシングシステムや専門家によるマニュアルミックスと比較して優れた性能を示した。特に、より複雑な多トラックシナリオ(ゲーミング、ライブストリーミング)において優位性が確認された。
今後の課題としては、システムの実時間性と適応性の向上が挙げられる。動的に変化する音響環境に対して、パラメータ調整を効果的に行う戦略の検討が重要である。
Stats
各トラックのラウドネスレベルは以下の通り:
調整前: -12.172 LUFS
調整後: -14.940 LUFS
Track1: -19.882 LUFS
Track2: -21.751 LUFS
Track3: -20.343 LUFS