核心概念
音響ボリュームレンダリング(AVR)は、音波の伝播原理を組み込んだ、より正確で現実的なインパルス応答フィールドを構築するための新しいアプローチである。
本稿は、ニューラルインパルス応答フィールドに音響ボリュームレンダリング(AVR)を導入し、音響マルチビューの一貫性を本質的に実現することを提案する研究論文である。
研究目的
本研究の目的は、音響環境におけるインパルス応答(IR)の空間的変化を理解しモデル化すること、具体的には、未知のエミッタとリスナーの位置に対してIRを生成できる学習済みマッピングであるニューラルインパルス応答フィールドを構築することである。
手法
本稿では、音響インパルス応答のフィールドをモデル化するために、ボリュームレンダリングを応用した新しい手法である音響ボリュームレンダリング(AVR)を提案する。この手法は、ボリュームレンダリングを用いて光の伝達を表現することで3Dシーンのモデリングに顕著な成功を収めたNeural Radiance Fields[33]から着想を得ている。しかし、音響波は、ボリュームレンダリングのフレームワークに適応するために、いくつかの根本的な課題を提示する。
音響インパルス応答は、光の伝達とは異なり、本質的に時系列信号であり、異なる場所からの音波が異なる遅延でリスナーに到達する。この問題は、現実世界でサンプリングされた離散的なインパルス応答を扱う場合にさらに複雑になる。
インパルス応答は、隣接するピクセルが強い相関を示す画像とは対照的に、高い空間的変動を示す。この特性により、ネットワークの最適化が特に困難になる[43, 45]。
カメラが正確な方向情報(すなわちピクセル)で光を捕捉するのと異なり、マイクロホンはすべての方向からの信号を組み合わせて捕捉する。
これらの課題に対処するために、本稿では、インパルス応答をフーリエ変換を用いて時間領域から周波数領域に変換し、周波数領域でボリュームレンダリングを実行する。周波数領域のインパルス応答に位相シフトを適用して時間遅延を考慮し、有限時間領域サンプリングの限界を回避する。また、周波数領域表現は空間的変動が小さいため、ネットワークの最適化が容易になる。考えられるすべての方向からの信号を考慮するために、球全体にわたって均一に光線を照射し、球面統合を用いてインパルス応答測定値を合成する。さらに、この設計により、推論時に個々の頭部伝達関数(HRTF)[57]を球面統合に統合することで、パーソナライズされたオーディオ体験が可能になる。
結果
評価の結果、AVRは、シミュレーションと現実世界の両方のデータセット[10, 20]において、既存の方法を大幅に上回り、ゼロショットでバイノーラルオーディオをレンダリングできることが示された(第4.3節)。
結論
本稿では、音波の伝播原理を本質的にコード化するインパルス応答フィールドを再構築するために、音響ボリュームレンダリングを提案する。インパルス応答モデリングにおける独自の課題に対処するために、周波数領域信号レンダリングと球面信号統合を導入する。実験の結果、AVRが既存のアプローチを大幅に上回ることが実証された。さらに、正確な到着時間測定を提供するオープンソースのシミュレーションプラットフォームであるAcoustiXを開発した。
統計
AVRは、既存の方法を大幅に上回る、シミュレーションと現実世界の両方のデータセットで、最先端のパフォーマンスを達成した。
ユーザー調査では、レンダリングされたバイノーラルオーディオの空間知覚に関して、AVRはNAFの1.42、INRASの1.86と比較して、4.71という最高のスコアを達成した。
AVRの推論時間は、0.1秒のIRで30.3ミリ秒、0.32秒のIRで90.7ミリ秒だった。