카메라 기반 3D 의미론적 장면 완성(SSC)에서 기존의 시간적 정보 활용 방식은 단순히 과거 프레임을 누적하는 방식으로, 중복 정보 및 학습 어려움을 야기했습니다. 이를 해결하기 위해 본 논문에서는 계층적 시간적 맥락 학습(HTCL)이라는 새로운 패러다임을 제시합니다. HTCL은 프레임 간의 유사성 측정과 이를 기반으로 한 동적 개선이라는 두 단계로 시간적 맥락 학습을 수행합니다. 먼저, 척도 인식 분리 및 다중 독립 학습기를 통해 중요한 관련 맥락과 중복 정보를 분리하여 세분화된 맥락적 대응 모델링을 가능하게 합니다. 그런 다음, 높은 유사성을 가진 위치와 인접한 관련 영역을 기반으로 특징 샘플링 위치를 동적으로 조정하여 불완전한 관찰을 보완합니다. 제안된 방법은 SemanticKITTI 벤치마크에서 최상의 순위를 차지했으며, OpenOccupancy 벤치마크에서는 mIoU 측면에서 LiDAR 기반 방법을 능가했습니다.
이 논문에서는 입력 이미지의 고유한 특징을 효과적으로 포착하고 관심 영역 내에서 정보를 집계하는 컨텍스트 인식 쿼리 생성기를 사용하여 컨텍스트 종속 쿼리를 초기화하는, 새롭고 효율적인 컨텍스트 및 기하학 인식 복셀 트랜스포머(CGVT)를 제안합니다.
현실 세계의 체적 요소는 모두 동등하지 않으며, 이를 고려하여 하드니스 인지 및 자기 증류 기법을 통해 의미론적 장면 완성 성능을 향상시킬 수 있다.
SLCF-Net은 RGB 이미지와 희소 LiDAR 측정치를 순차적으로 융합하여 장면의 기하학적 구조와 의미론적 정보를 동시에 추정하는 새로운 접근 방식을 제안한다.
본 연구는 단일 모달리티 표현 학습의 비효율성과 과적합 문제를 해결하기 위해 새로운 의미론적 장면 완성 프레임워크인 AMMNet을 제안한다. AMMNet은 모달리티 간 상호 의존적 gradient 업데이트를 통해 개별 모달리티의 잠재력을 더 잘 unleash하고, 맞춤형 적대적 훈련 기법을 통해 과적합을 완화한다.