Die Autoren stellen Marigold vor, ein Verfahren zur affin-invarianten monokularen Tiefenschätzung, das auf dem Stable Diffusion Modell basiert. Anstatt ein neues Modell von Grund auf zu trainieren, wird das vortrainierte Stable Diffusion Modell durch Feinabstimmung an die Tiefenschätzung angepasst.
Dafür wird zunächst das Stable Diffusion Modell verwendet, um Bild- und Tiefendaten in einen gemeinsamen latenten Raum zu überführen. Anschließend wird nur der Denoising-U-Net-Teil des Modells feinabgestimmt, um eine bildbedingte Tiefenschätzung zu ermöglichen.
Das Feintuning erfolgt ausschließlich auf synthetischen Trainingsdaten, da diese vollständige und saubere Tiefenwerte aufweisen. Trotz dieser Einschränkung kann Marigold durch den Einsatz von Multi-Resolutions-Rauschen und einem annealed Noise-Scheduling sehr gute Ergebnisse auf verschiedenen realen Testdatensätzen erzielen und übertrifft den Stand der Technik in vielen Fällen deutlich.
Darüber hinaus stellen die Autoren ein Ensemble-Verfahren vor, das mehrere Vorhersagen kombiniert und so die Leistung weiter steigert. Insgesamt zeigt die Arbeit, dass die umfassende visuelle Repräsentation, die in modernen Diffusionsmodellen gelernt wird, ein wichtiger Schlüssel für leistungsfähige monokulare Tiefenschätzung ist.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Bingxin Ke,A... um arxiv.org 04-04-2024
https://arxiv.org/pdf/2312.02145.pdfTiefere Fragen