Core Concepts
Durch Aufgabentrennung in zwei Stufen, bei denen jeweils nur eine Aufgabe im Fokus steht, kann die komplexe Kombination von Wahrnehmung und Generierung vereinfacht und die Leistung bei der Verarbeitung anspruchsvoller Szenen verbessert werden.
Abstract
Die Studie präsentiert eine Methode zur Verbesserung der semantischen Segmentierung aus Vogelperspektive (BEV) durch Aufgabentrennung in zwei Stufen:
Erste Stufe:
Ein BEV-Autoencoder wird trainiert, um BEV-Segmentierungskarten aus verrauschten latenten Darstellungen zu rekonstruieren.
Dadurch lernt der Decoder typische Muster und Regelmäßigkeiten in BEV-Szenen, um kohärente und realistische BEV-Karten zu generieren.
Zweite Stufe:
Ein Modell wird trainiert, um RGB-Eingabebilder in den latenten BEV-Raum der ersten Stufe abzubilden.
Dadurch wird eine Ausrichtung zwischen Perspektiv- und Vogelperspektive erreicht, ohne die komplexe Kombination von Wahrnehmung und Generierung in einem Schritt bewältigen zu müssen.
Zusätzlich wird eine Koordinatentransformation der BEV-Karten von kartesisch zu polar durchgeführt, um die Ausrichtung zwischen den Ansichten weiter zu verbessern.
Die Experimente auf den Datensätzen nuScenes und Argoverse zeigen, dass die vorgeschlagene Methode die Leistung im Vergleich zu state-of-the-art Ansätzen deutlich steigern kann, bei gleichzeitig geringerem Rechenaufwand.
Stats
Die Auflösung der BEV-Segmentierungskarten beträgt 200 x 200 Pixel in einem Bereich von 50 x 50 Metern um das Ego-Fahrzeug.
Quotes
Keine relevanten Zitate gefunden.