核心概念
Metric3D v2は、単一画像から正確な計量的深度と表面法線を推定できる汎用的な幾何学的基盤モデルである。従来の手法では、計量的深度推定と表面法線推定の両方に課題があったが、Metric3D v2はこれらの問題を解決し、優れた一般化性能を実現している。
要約
本研究では、Metric3D v2と呼ばれる単一画像からの正確な計量的深度と表面法線の推定を可能にする汎用的な幾何学的基盤モデルを提案している。
従来の深度推定手法は、計量的深度推定、相対的深度推定、アフィン不変深度推定に分類されるが、それぞれに課題がある。計量的深度推定は特定のカメラパラメータに依存し、一般化性能が低い。相対的深度推定は幾何構造情報が失われる。アフィン不変深度推定は計量情報を失う。
一方、表面法線推定は計量情報の影響を受けないが、大規模で多様なデータラベルの不足により、一般化性能が低い。
そこで本研究では以下の2つの解決策を提案している:
計量的深度推定のための正準カメラ変換手法:
様々なカメラパラメータを持つ大規模データを正準カメラ空間に変換することで、計量的深度推定の一般化性能を向上させる。
変換された正準空間での深度予測を、元の空間に逆変換することで計量情報を復元する。
深度と法線の共同最適化モジュール:
大規模な深度データセットから得られる知識を活用して、法線推定器の一般化性能を向上させる。
深度と法線の整合性を保つことで、法線推定の精度を高める。
これらの手法により、Metric3D v2は16種類の深度と法線のベンチマークで最高性能を達成し、様々なアプリケーションでの活用が期待できる。特に、単一画像からの正確な3D計量構造の復元や、モノSLAMの精度向上などに貢献できる。
統計
単一画像から正確な計量的深度を推定することは、カメラパラメータの違いによる深度の尺度曖昧性が課題となる。
表面法線推定は計量情報の影響を受けないが、大規模で多様なデータラベルの不足により、一般化性能が低い。
引用
"Metric depth excels in capturing data at scale, surface normals offer superior preservation of local geometry and are devoid of metric ambiguity compared to metric depth."
"Currently, the community still lacks a robust, generalizable geometry foundation model capable of producing high-quality metric depth and surface normal from a single image."