Core Concepts
본 연구는 자율주행을 위한 카메라-LiDAR 융합 기반 의미론적 분할 문제를 해결하기 위해 비전 트랜스포머 기반 네트워크 CLFT를 제안한다.
Abstract
이 연구는 자율주행을 위한 의미론적 분할 문제를 해결하기 위해 카메라와 LiDAR 센서 데이터를 융합하는 비전 트랜스포머 기반 네트워크 CLFT를 제안한다. CLFT는 비전 트랜스포머의 점진적 조립 전략을 활용하여 이중 방향 네트워크를 구축하고, 트랜스포머 디코더 레이어에서 교차 융합 전략을 통해 결과를 통합한다. 기존 연구와 달리, CLFT는 비, 어두운 조건과 같은 까다로운 환경에서도 강력한 성능을 보여준다. 실험 결과, CLFT는 차량과 보행자 클래스에 대해 기존 CNN 기반 모델보다 최대 10% 향상된 성능을 보였다. 또한 단일 모달리티 입력을 사용하는 트랜스포머 기반 모델과 비교해서도 전반적으로 5-10% 향상된 성능을 보였다.
Stats
차량 클래스의 경우 CLFT-hybrid 모델이 밝고 건조한 환경에서 91.35%의 IoU를 달성했으며, 이는 CLFCN 모델의 91.07%보다 높은 성능이다.
보행자 클래스의 경우 CLFT-hybrid 모델이 밝고 건조한 환경에서 66.04%의 IoU를 달성했으며, 이는 CLFCN 모델의 62.50%보다 높은 성능이다.
어둡고 습한 환경에서 CLFT-hybrid 모델의 성능 저하는 1-2%p인 반면, CLFCN과 Panoptic SegFormer 단일 모달리티 모델은 5-10%p 감소했다.
Quotes
"CLFT 모델은 멀티모달 센서 융합과 트랜스포머의 멀티 어텐션 메커니즘의 이점을 활용하여 대표적인 교통 객체 의미론적 분할 신경망 중 하나이다."
"CLFT-hybrid 모델은 단일 모달리티 입력을 사용하는 트랜스포머 기반 모델과 비교해서도 전반적으로 5-10% 향상된 성능을 보였다."