Umfassende 3D-Dichtbeschriftung in Außenszenen
Wir führen die neue Aufgabe der 3D-Dichtbeschriftung in Außenszenen ein, die LiDAR-Punktwolken und panoramische RGB-Bilder als Eingabe verwendet und eine Reihe von Objektboxen mit Beschriftungen als Ausgabe erwartet. Um diese Aufgabe zu bewältigen, schlagen wir das TOD3Cap-Netzwerk vor, das die BEV-Darstellung nutzt, um Objektboxvorschläge zu generieren, und Relation Q-Former mit LLaMA-Adapter integriert, um für diese Objekte aussagekräftige Beschriftungen zu generieren. Wir stellen auch den TOD3Cap-Datensatz vor, den größten uns bekannten für 3D-Dichtbeschriftung in Außenszenen, der 2,3 Millionen Beschreibungen von 64.300 Außenobjekten aus 850 Szenen in nuScenes enthält.