Core Concepts
疎入力シナリオでは、放射率フィールドモデルが不必要に複雑な解決策を学習してしまうことが問題となる。本研究では、放射率フィールドの能力を制限することで、より単純な解決策を学習させ、深度推定の精度を向上させる。
Abstract
本研究では、NeRF、TensoRF、ZipNeRFといった代表的な暗黙的および明示的な放射率フィールドモデルを対象に、疎入力シナリオでの問題点を分析し、それぞれのモデルに適したオーグメンテーションを設計している。
NeRFでは、位置エンコーディングの次数が高いことと、視点依存の放射率が形状-放射率の曖昧性を引き起こすことが問題となる。そのため、位置エンコーディングの次数を下げ、視点依存の放射率を無効化したオーグメンテーションを設計した。
TensoRFでは、高解像度の分解テンソル成分が多いことが、フロート artifacts の原因となる。ZipNeRFでは、ハッシュテーブルが大きいことが同様の問題を引き起こす。そのため、これらのコンポーネントの数や解像度を制限したオーグメンテーションを設計した。
これらのオーグメンテーションモデルで推定した深度を、メインモデルの深度推定の監督に使用する。信頼性の高い深度推定領域を判定するために、近傍の入力画像への再投影誤差を用いる。
提案手法は、NeRF-LLFF、RealEstate-10K、MipNeRF360などの人気データセットで大幅な性能向上を示した。特に、幾何学的な推定精度が大幅に向上している。
Stats
NeRF-LLFFデータセットの花の場面において、NeRFモデルは深度マップにフローター artifacts が見られる。
TensoRFモデルでは、部屋の場面で同様のフローター artifacts が観察される。