Core Concepts
本論文は、入力データの不整合に対して頑健な神経シーン表現手法を提案する。RANSAC原理に基づいて、不整合なデータを排除しつつ、重要な情報を保持する手法を開発した。
Abstract
本論文は、学習ベースのシーン表現手法(ニューラルラジアンスフィールド、ライトフィールドネットワーク)の課題に取り組む。これらの手法は、入力画像の不整合(遮蔽、カメラパラメータの誤推定、レンズフレアなど)に弱いという問題がある。
提案手法は以下の通り:
ランダムサンプリングによる仮説生成: 入力データからランダムに小さなサンプルセットを抽出し、それに基づいて仮説モデルを生成する。
仮説の検証: 生成した仮説モデルを用いて入力データ全体を予測し、予測結果と入力データの一致度を評価する。一致度の高い仮説を選択する。
最終モデルの推定: 選択された仮説と、それに一致するサンプルを用いて最終的なモデルを推定する。
この手法は、ニューラルラジアンスフィールドとライトフィールドネットワークの両方に適用可能である。
ニューラルラジアンスフィールドの場合、入力画像と対応するカメラパラメータからランダムサンプルを抽出し、それに基づいて仮説モデルを生成する。
ライトフィールドネットワークの場合、入力画像の画素とそれに対応するレイを用いて仮説を生成する。
提案手法は、従来手法に比べて、遮蔽や誤推定されたカメラパラメータ、ぼけた入力などの不整合に対して頑健な再構成結果を示す。
Stats
遮蔽された入力画像の場合、提案手法はベースラインに比べて最大8dBのPSNR向上を示した。
誤推定されたカメラパラメータを含む入力に対して、提案手法はPSNRを最大6dB向上させた。
ぼけた入力に対しても、提案手法は従来手法よりも高品質な再構成結果を得た。