Core Concepts
MIMOSAは、モノラルやステレオの音声しか持たない動画に対して、ユーザーと人工知能が協力して空間オーディオ効果を生成・操作できるツールである。
Abstract
本論文では、MIMOSAというツールを紹介する。MIMOSAは、モノラルやステレオの音声しか持たない動画に対して、ユーザーと人工知能が協力して空間オーディオ効果を生成・操作できるツールである。
MIMOSAのシステム構造は以下の通りである:
動画の処理パイプラインでは、物体検出、深度推定、サウンドトラック分離、オーディオタグ付けなどの処理を行い、各サウンドソースの位置情報を推定する。
ユーザーインターフェースでは、2Dと3Dの操作パネルを提供し、ユーザーが推定された位置情報を確認・修正したり、独自の空間オーディオ効果を作成したりできる。
ユーザーは、視覚情報と聴覚情報の不整合を発見しやすく、また、自由に空間オーディオ効果をカスタマイズできる。
ユーザー評価の結果、MIMOSAは使いやすく、有用であり、表現力が高く、臨場感のある空間オーディオ効果を生成できることが示された。特に、ユーザーが人工知能の生成結果を修正・拡張できる点が高く評価された。
Stats
動画の長さは0.43分から1.37分の範囲である。
各動画には2つから4つのサウンドソースが含まれている。
Quotes
「アラインメントを合わせるのにほとんど労力がいらず、設定を色々試せてとてもワクワクした」(P11)
「3Dパネルを使うと、視点を移動させて様々な角度から空間効果を聴くことができる」(P13)
「ドットとオブジェクトの位置がずれているのを見つけるのが、エラーを発見する上で簡単だった」(P13)