Core Concepts
都市空撮画像からの3Dへのラベルリフティングによる効果的なセマンティックおよびインスタンスセグメンテーション手法を提案する。
Abstract
1. 概要
都市空撮画像からのニューラルラジアンスフィールド手法による都市規模の意味論と建物レベルのインスタンスセグメンテーションを提案。
2Dラベルを3Dにリフトして、オブジェクトサイズの変化に対応するために尺度適応型意味ラベル融合戦略を導入。
クロスビューインスタンスラベルグループ化戦略を使用して、2Dインスタンスラベル間の多視点不整合問題を緩和。
マルチビュー再構築された深度事前情報を利用して幾何学的品質を向上させ、優れたセグメンテーション結果を実現。
2. 導入
都市計画から自動運転システムまで、3D都市規模意味理解が重要。
点群表現に依存する従来の方法とは異なり、NeRFが効果的な3Dシーングラフィック表現として浮上。
3. 方法
ニューラルラジアントフィールド(NeRF)に基づく3Dシーングラフィック表現で都市空撮画像から3D意味および建物レベルインスタンス理解。
尺度適応型意味ラベル融合戦略でオブジェクトサイズごとに最適なセグメンテーションを実現。
クロスビューインスタンスラベルグループ化戦略で多視点一貫性問題を緩和し、正確なインスタンスセグメンテーショん結果を提供。
4. 実験結果
UrbanBISデータセットで手法評価。提案手法は既存手法よりも優れたパフォーマnce示す。
スケール適応型融合は特に建物カテゴリで精度向上。クロs-view groupingは多視点一貫性問題解決。
5. 結論
都市空撮画像からのニューラルアプローチは効果的な意味およびインストラン分野で有望。
Stats
NeRFが写真実在感ある細部描写可能。
Mask2FormerやUNetFormerが航空写真では信頼性低い。
我々の手法は既存手法よりも高いパフォーマnce示す。
Quotes
"Objects in urban aerial images exhibit substantial variations in size, posing a significant challenge for accurate segmentation."
"Our approach outperforms existing methods on multiple real-world urban-scale datasets, highlighting its effectiveness."