Dieser Artikel präsentiert DepthFM, ein leistungsfähiges Modell zur monokularen Tiefenschätzung, das auf dem Flow Matching-Paradigma basiert. Im Gegensatz zu diskriminativen Ansätzen, die unter verschwommenen Artefakten leiden, und zu generativen Methoden, die unter langsamen Samplingzeiten aufgrund ihrer SDE-Natur leiden, nutzt DepthFM einen direkten Abbildungsansatz von Eingabebild zu Tiefenkarte.
Die Kernidee ist, dass Flow Matching-Modelle, die gerade Trajektorien durch den Lösungsraum erzeugen, für die Probleme der Tiefenschätzung und Oberflächennormalenschätzung aus einem einzelnen Bild besser geeignet sind als Diffusionsmodelle. Um den Trainingsaufwand zu reduzieren, nutzt DepthFM einen vortrainierten Diffusionsmodell-Grundlagenwert als Prior und wird nur auf synthetischen Daten trainiert. Dennoch zeigt das Modell eine bemerkenswerte Generalisierungsfähigkeit auf realen Bildern.
Darüber hinaus führt DepthFM einen zusätzlichen Oberflächennormalen-Verlust ein, der die Tiefenschätzung weiter verbessert. Aufgrund des generativen Ansatzes kann unser Modell auch die Konfidenz seiner Tiefenschätzungen zuverlässig vorhersagen.
Auf gängigen Benchmarks für komplexe natürliche Szenen zeigt DepthFM den aktuellen Stand der Technik bei geringem Rechenaufwand, obwohl es nur auf wenigen synthetischen Daten trainiert wurde.
翻譯成其他語言
從原文內容
arxiv.org
深入探究