Der Artikel führt die neue Aufgabe der 3D-Dichtbeschriftung in Außenszenen ein. Im Gegensatz zu Innenszenen, die statisch und mit dichten Punktwolken erfasst werden, sind Außenszenen dynamisch und weisen eine spärliche LiDAR-Punktwolke auf. Außerdem haben Außenszenen eine feste Kameraausrichtung und erstrecken sich über deutlich größere Flächen. Diese Domänenunterschiede stellen erhebliche Herausforderungen für eine erfolgreiche 3D-Dichtbeschriftung in Außenszenen dar.
Um diese Herausforderungen zu bewältigen, schlagen die Autoren das TOD3Cap-Netzwerk vor. Dieses nutzt eine BEV-Darstellung, um Objektboxvorschläge zu generieren, und integriert Relation Q-Former mit LLaMA-Adapter, um aussagekräftige Beschriftungen für diese Objekte zu erzeugen. Außerdem führen die Autoren den TOD3Cap-Datensatz ein, der 2,3 Millionen Beschreibungen von 64.300 Außenobjekten aus 850 Szenen in nuScenes enthält und damit der größte bekannte Datensatz für 3D-Dichtbeschriftung in Außenszenen ist.
Die Experimente zeigen, dass das TOD3Cap-Netzwerk die an Innenszenen angepassten Basislinien deutlich übertrifft (+9,6 CiDEr@0.5IoU). Die Autoren führen auch eine umfassende Ablationsstudie durch, um die Effektivität des TOD3Cap-Netzwerkdesigns zu untersuchen.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor