Core Concepts
単眼深度推定における言語ガイダンスの影響は限定的であり、シーンレベルの記述に最適化されているが、低レベルの情報を含む場合は性能が低下する。
Abstract
本研究は、単眼深度推定における言語ガイダンスの影響を系統的に評価しています。主な知見は以下の通りです:
現在の言語ガイダンを用いた深度推定手法は、シーンレベルの記述に最適化されており、物体間の空間関係などの低レベルの情報を含む場合、性能が低下する。
言語ガイダンスを用いた手法は、物体の遮蔽や分布シフトなどの分布変化に対して、ビジョンのみの手法に比べて頑健性が低い。
言語ガイダンスを用いた手法の失敗の原因として、言語理解の限界が考えられる。基盤モデルであるCLIPは空間関係の理解が不十分であり、低レベルの言語情報を適切に活用できていない。
実世界での実用化を考えると、言語ガイダンスを用いた深度推定手法の頑健性と一般化性の向上が重要な課題である。
Stats
物体が遮蔽された場合、ビジョンのみの手法(AdaBins)の方が言語ガイダンスを用いた手法(VPD)よりも頑健性が高い。
新しいシーンタイプのデータセットで評価した場合、言語ガイダンスを用いた手法(VPD)の性能低下が最も大きい。
Quotes
"現在の言語ガイダンを用いた深度推定手法は、シーンレベルの記述に最適化されており、物体間の空間関係などの低レベルの情報を含む場合、性能が低下する。"
"言語ガイダンスを用いた手法は、物体の遮蔽や分布シフトなどの分布変化に対して、ビジョンのみの手法に比べて頑健性が低い。"