Die Autoren stellen Marigold vor, ein Verfahren zur affin-invarianten monokularen Tiefenschätzung, das auf dem Stable Diffusion Modell basiert. Anstatt ein neues Modell von Grund auf zu trainieren, wird das vortrainierte Stable Diffusion Modell durch Feinabstimmung an die Tiefenschätzung angepasst.
Dafür wird zunächst das Stable Diffusion Modell verwendet, um Bild- und Tiefendaten in einen gemeinsamen latenten Raum zu überführen. Anschließend wird nur der Denoising-U-Net-Teil des Modells feinabgestimmt, um eine bildbedingte Tiefenschätzung zu ermöglichen.
Das Feintuning erfolgt ausschließlich auf synthetischen Trainingsdaten, da diese vollständige und saubere Tiefenwerte aufweisen. Trotz dieser Einschränkung kann Marigold durch den Einsatz von Multi-Resolutions-Rauschen und einem annealed Noise-Scheduling sehr gute Ergebnisse auf verschiedenen realen Testdatensätzen erzielen und übertrifft den Stand der Technik in vielen Fällen deutlich.
Darüber hinaus stellen die Autoren ein Ensemble-Verfahren vor, das mehrere Vorhersagen kombiniert und so die Leistung weiter steigert. Insgesamt zeigt die Arbeit, dass die umfassende visuelle Repräsentation, die in modernen Diffusionsmodellen gelernt wird, ein wichtiger Schlüssel für leistungsfähige monokulare Tiefenschätzung ist.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Bingxin Ke,A... alle arxiv.org 04-04-2024
https://arxiv.org/pdf/2312.02145.pdfDomande più approfondite