Główne pojęcia
SparseOcc, das erste vollständig spärliche Netzwerk für die 3D-Belegungsvorhersage, rekonstruiert eine spärliche 3D-Darstellung aus Kamerabildern und verwendet dann spärliche Abfragen, um die semantische/instanzbasierte Belegung vorherzusagen, ohne auf zeitaufwendige dichte Funktionen oder globale Aufmerksamkeit zurückgreifen zu müssen.
Streszczenie
SparseOcc ist ein visionszentriertes Modell zur 3D-Belegungsvorhersage, das nur Kameraeingaben benötigt. Es besteht aus drei Modulen:
Ein Bildencoder, der 2D-Merkmale aus Mehrfachansichten extrahiert.
Ein spärlicher Voxeldekoder, der eine spärliche 3D-Darstellung der Szene rekonstruiert, indem er nur die nicht-freien Bereiche modelliert.
Ein Mask-Transformer-Decoder, der semantische und instanzbasierte Belegung aus der spärlichen 3D-Darstellung vorhersagt.
Der spärliche Voxeldekoder folgt einem grob-zu-fein-Schema und nutzt nur die nicht-freien Bereiche, um die Rechenkosten erheblich zu reduzieren. Der Mask-Transformer verwendet spärliche Abfragen, um mit den 2D-Merkmalen in einer vollständig spärlichen Weise zu interagieren, wodurch zeitaufwendige dichte Funktionen oder globale Aufmerksamkeit vermieden werden.
Darüber hinaus führen wir RayIoU ein, eine strahlenbasierte Evaluierungsmetrik, die die Probleme der herkömmlichen voxelbasierten mIoU-Metrik löst.
SparseOcc erzielt 34,0 RayIoU auf dem Occ3D-nus-Benchmark bei einer Echtzeit-Inferenzgeschwindigkeit von 17,3 FPS (Tesla A100, PyTorch fp32-Backend) mit 7 Eingabeframes. Durch Einbeziehung von 15 Vorherframen verbessert sich die Leistung von SparseOcc kontinuierlich auf 35,1 RayIoU und übertrifft damit den Stand der Technik ohne Schnickschnack.
Statystyki
Über 90% der Voxel in der Szene sind frei.
Cytaty
Keine relevanten Zitate gefunden.