本論文では、ストリートシーンにおけるニューラルレディアンスフィールド(NeRF)の高品質化に向けて、LiDARデータの深度活用に関する3つの重要な洞察を提案している。
LiDARエンコーディングとグリッドベースの特徴表現を融合することで、幾何学的情報とテクスチャ情報を効果的に組み合わせる。LiDARの疎な点群データだけでは低解像度な描画しか得られないが、高解像度のグリッドベース特徴と組み合わせることで、高品質な描画が可能になる。
複数フレームのLiDARデータを蓄積し、オクルージョンを考慮した上で深度情報を活用する。単一フレームのLiDARデータでは低テクスチャ領域の深度情報が不足するが、時間的に蓄積したデータを活用し、オクルージョンを考慮することで、より正確な深度情報を得ることができる。
LiDARデータから生成した合成ビューを訓練データに追加することで、入力ビューの限定的な範囲を補完する。車載カメラの前方移動による限定的な視点カバレッジを、LiDARから生成した合成ビューを加えることで改善できる。
これらの3つの洞察を組み合わせることで、ストリートシーンにおけるNeRFの描画品質を大幅に向上させることができる。特に、車線変更などの入力ビューから大きく外れた状況でも高品質な描画が可能となる。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Shanlin Sun,... alle arxiv.org 05-03-2024
https://arxiv.org/pdf/2405.00900.pdfDomande più approfondite