核心概念
Durch Aufgabentrennung in zwei Stufen, bei denen jeweils nur eine Aufgabe im Fokus steht, kann die komplexe Kombination von Wahrnehmung und Generierung vereinfacht und die Leistung bei der Verarbeitung anspruchsvoller Szenen verbessert werden.
摘要
Die Studie präsentiert eine Methode zur Verbesserung der semantischen Segmentierung aus Vogelperspektive (BEV) durch Aufgabentrennung in zwei Stufen:
Erste Stufe:
- Ein BEV-Autoencoder wird trainiert, um BEV-Segmentierungskarten aus verrauschten latenten Darstellungen zu rekonstruieren.
- Dadurch lernt der Decoder typische Muster und Regelmäßigkeiten in BEV-Szenen, um kohärente und realistische BEV-Karten zu generieren.
Zweite Stufe:
- Ein Modell wird trainiert, um RGB-Eingabebilder in den latenten BEV-Raum der ersten Stufe abzubilden.
- Dadurch wird eine Ausrichtung zwischen Perspektiv- und Vogelperspektive erreicht, ohne die komplexe Kombination von Wahrnehmung und Generierung in einem Schritt bewältigen zu müssen.
Zusätzlich wird eine Koordinatentransformation der BEV-Karten von kartesisch zu polar durchgeführt, um die Ausrichtung zwischen den Ansichten weiter zu verbessern.
Die Experimente auf den Datensätzen nuScenes und Argoverse zeigen, dass die vorgeschlagene Methode die Leistung im Vergleich zu state-of-the-art Ansätzen deutlich steigern kann, bei gleichzeitig geringerem Rechenaufwand.
統計資料
Die Auflösung der BEV-Segmentierungskarten beträgt 200 x 200 Pixel in einem Bereich von 50 x 50 Metern um das Ego-Fahrzeug.
引述
Keine relevanten Zitate gefunden.