المفاهيم الأساسية
NeRFを用いて効率的に合成画像を生成し、可逆ニューラルネットワークを使ってカメラポーズと画像の分布の関係をモデル化する手法を提案する。これにより、高精度なポーズ推定を低コストで実現できる。
الملخص
本論文では、カメラポーズの推定問題を、画像分布とポーズ分布の関係をモデル化する問題として捉えている。具体的には以下の手順で行う:
NeRFを用いて、低解像度の合成画像を大量に生成する。これにより、ポーズのサンプリングと画像の生成を効率的に行える。
生成した画像とポーズのペアデータを用いて、可逆ニューラルネットワーク(INN)を学習する。INNは画像の潜在表現とポーズの間の写像を学習する。
学習したINNを用いて、入力画像に対するポーズの事後分布を推定できる。これにより、ポーズの不確実性を定量化できる。
実験では、公開データセットでの絶対ポーズ推定タスクと、実際のロボットプラットフォームでの位置推定タスクで評価を行った。提案手法は、従来手法と同等の精度を達成しつつ、データ生成コストが低く、組み込み向けのプラットフォームでも高速に動作することを示した。
الإحصائيات
NeRFを用いて50,000枚の合成画像を生成するのに約40分かかった
提案手法のポーズ推定精度は、平均誤差が位置で0.09m、姿勢で2.65度であった
実ロボットでの2D位置推定実験では、LiDARベースの手法と同等の精度を達成し、154Hzの高速動作が可能であった
اقتباسات
"NeRFを用いて効率的にカメラポーズをサンプリングし、画像を合成することで、ポーズ推定問題を画像分布とポーズ分布の写像問題として捉えることができる。"
"提案手法は、従来手法と同等の精度を達成しつつ、データ生成コストが低く、組み込み向けのプラットフォームでも高速に動作することを示した。"