核心概念
NeRFの放射輝度と密度のグリッドを入力として使用し、標準的な3次元Swinトランスフォーマーエンコーダーと体積デコーダーを用いて、不透明度を考慮した密な体積マスクド自己教師あり学習目的関数を直接3次元で学習することで、強力な3次元表現を獲得する。
要約
本研究では、NeRFの放射輝度と密度のグリッドを入力として使用し、標準的な3次元Swinトランスフォーマーエンコーダーと体積デコーダーを用いて、不透明度を考慮した密な体積マスクド自己教師あり学習目的関数を直接3次元で学習することで、強力な3次元表現を獲得する手法であるNeRF-MAEを提案している。
具体的には以下の通りである:
NeRFから抽出した放射輝度と密度のグリッドを入力として使用
標準的な3次元Swinトランスフォーマーエンコーダーと体積デコーダーを用いて構成
不透明度を考慮した密な体積マスクド自己教師あり学習目的関数を直接3次元で学習
1.6M以上の画像と3,500以上のシーンから成る大規模データセットを用いて事前学習
事前学習したモデルを用いて、3次元物体検出、体積超解像、セマンティック体積ラベリングなどの下流タスクで大幅な性能向上を達成
統計
放射輝度と密度の体積グリッドの各ボクセルの予測値と正解値の二乗誤差の平均は0.019
放射輝度と密度の体積グリッドの各ボクセルの予測値と正解値の二乗誤差の平均は0.019