Core Concepts
Unser Verfahren extrahiert effektiv Wissen aus einem vortrainierten Modell für Pinhole-Bilder und überträgt dieses Wissen auf das Zielmodell für panoramische Bilder, ohne Zugriff auf die Quelldaten zu haben.
Abstract
In dieser Arbeit wird ein neues Problem untersucht - die quellenfreie unüberwachte Domänenanpassung (SFUDA) für die panoramische semantische Segmentierung. Dazu wird ein End-to-End-SFUDA-Framework vorgeschlagen, um die Domänenverschiebungen, einschließlich semantischer Diskrepanzen, Verzerrungen und Stilunterschiede zwischen Pinhole- und panoramischen Domänen, anzugehen.
Das Kernkonzept ist es, die Vielseitigkeit der Mehrfachprojektion von 360°-Daten für einen effizienten Wissenstransfer zwischen den Domänen zu nutzen. Konkret verwenden wir die Tangentprojektion (TP) mit geringerer Verzerrung und die Fixed FoV Projection (FFP), um Wissen aus dem Quellmodell zu extrahieren. Um den direkten Wissenstransfer zwischen den Domänen zu ermöglichen, schlagen wir ein panoramisches Prototypenanpassungsmodul (PPAM) vor, um globale panoramische Prototypen für die Anpassung zu erhalten. Darüber hinaus führen wir eine Kreuz-Dual-Aufmerksamkeitsmodule (CDAM) auf Merkmalsebene ein, um die räumlichen und kanalweisen Charakteristiken zwischen den Domänen besser aufeinander abzustimmen und die Stilunterschiede weiter zu verringern.
Umfangreiche Experimente auf synthetischen und realen Benchmarks, einschließlich Outdoor- und Innenszenarien, zeigen, dass unser Verfahren deutlich bessere Leistung erbringt als vorherige SFUDA-Methoden für die Pinhole-zu-Panorama-Anpassung.
Stats
Die Pinhole-Kamera hat einen Sichtwinkel (FoV) von 70°, während die 360°-Kamera einen FoV von 360° × 180° hat.
Panoramische Bilder leiden unter unvermeidlicher Verzerrung durch die Äquirektanguläre Projektion (ERP).
Es gibt Stilunterschiede zwischen den Pinhole- und panoramischen Bildern aufgrund unterschiedlicher Kamerasensoren und aufgenommener Szenen.
Quotes
"Semantik, Verzerrung und Stil sind wichtig: Hin zu quellenfreier UDA für panoramische Segmentierung"
"Übertragen von Wissen vom Pinhole-zu-Panorama-Bildbereich ist durch semantische Diskrepanzen, Verzerrungen und Stilunterschiede erschwert."