본 연구는 실외 장면에서의 3D 밀집 캡셔닝 문제를 다룬다. 실내 장면과 달리 실외 장면은 동적이며, LiDAR 포인트 클라우드가 희소하고, 고정된 카메라 관점, 더 넓은 영역 등의 특성을 가진다. 이러한 도메인 간 차이로 인해 기존 실내 방법론을 직접 적용하기 어렵다.
이를 해결하기 위해 저자들은 LiDAR 포인트 클라우드와 파노라마 RGB 이미지를 입력으로 활용하는 TOD3Cap 네트워크를 제안한다. TOD3Cap은 BEV 표현을 활용하여 객체 박스 제안을 생성하고, Relation Q-Former와 LLaMA-Adapter를 통해 풍부한 캡션을 생성한다. 또한 저자들은 실외 장면에 특화된 TOD3Cap 데이터셋을 소개한다. 이 데이터셋은 850개 장면에서 2.3M개의 설명을 포함하는 가장 큰 규모의 실외 3D 밀집 캡셔닝 데이터셋이다.
실험 결과, TOD3Cap 네트워크는 기존 실내 방법론을 실외 환경에 적용한 것보다 9.6 CiDEr@0.5IoU 향상된 성능을 보인다. 이는 제안된 방법론이 실외 3D 밀집 캡셔닝 문제를 효과적으로 해결할 수 있음을 보여준다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Bu Jin,Yupen... a las arxiv.org 03-29-2024
https://arxiv.org/pdf/2403.19589.pdfConsultas más profundas