Wir präsentieren eine neue Architektur, die Comprehensive Image Detail Embedding (CIDE) Modul genannt wird, für eine robuste monokulare Tiefenschätzung. Die Kernidee ist, auf die Zwischentexterzeugung für die Verwendung mit Grundlagenmodellen zu verzichten. Stattdessen verwenden wir die reichhaltigeren klassenspezifischen Wahrscheinlichkeiten, die von einem Klassifikationsmodell wie ViT erzeugt werden. Die Hypothese ist, dass textliche Einbettungen typischerweise nur auffällige Objekte hervorheben, während der klassenspezifische Wahrscheinlichkeitsvektor mehr Details, einschließlich kleinerer Objekte im Hintergrund, erhält. Wir implementieren diese Idee unter Verwendung des vorgeschlagenen Moduls, das mit einer bedingten Diffusionspipeline für die monokulare Tiefenschätzung gekoppelt ist. Wir zeigen die Effektivität unseres Ansatzes anhand mehrerer Benchmark-Datensätze und zeigen, dass er die aktuellen Methoden des Stands der Technik deutlich übertrifft.
Durch die Feinjustierung eines vortrainierten Diffusionsmodells (Stable Diffusion) können leistungsfähige und vielseitige monokulare Tiefenschätzer entwickelt werden, die ohne Verwendung realer Tiefendaten gute Ergebnisse auf verschiedenen Datensätzen erzielen.