In dieser Arbeit wird ein neues Problem untersucht - die quellenfreie unüberwachte Domänenanpassung (SFUDA) für die panoramische semantische Segmentierung. Dazu wird ein End-to-End-SFUDA-Framework vorgeschlagen, um die Domänenverschiebungen, einschließlich semantischer Diskrepanzen, Verzerrungen und Stilunterschiede zwischen Pinhole- und panoramischen Domänen, anzugehen.
Das Kernkonzept ist es, die Vielseitigkeit der Mehrfachprojektion von 360°-Daten für einen effizienten Wissenstransfer zwischen den Domänen zu nutzen. Konkret verwenden wir die Tangentprojektion (TP) mit geringerer Verzerrung und die Fixed FoV Projection (FFP), um Wissen aus dem Quellmodell zu extrahieren. Um den direkten Wissenstransfer zwischen den Domänen zu ermöglichen, schlagen wir ein panoramisches Prototypenanpassungsmodul (PPAM) vor, um globale panoramische Prototypen für die Anpassung zu erhalten. Darüber hinaus führen wir eine Kreuz-Dual-Aufmerksamkeitsmodule (CDAM) auf Merkmalsebene ein, um die räumlichen und kanalweisen Charakteristiken zwischen den Domänen besser aufeinander abzustimmen und die Stilunterschiede weiter zu verringern.
Umfangreiche Experimente auf synthetischen und realen Benchmarks, einschließlich Outdoor- und Innenszenarien, zeigen, dass unser Verfahren deutlich bessere Leistung erbringt als vorherige SFUDA-Methoden für die Pinhole-zu-Panorama-Anpassung.
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Xu Zheng,Pen... às arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12505.pdfPerguntas Mais Profundas