본 연구는 단일 모달리티 표현 학습의 비효율성과 과적합 문제를 해결하기 위해 새로운 의미론적 장면 완성 프레임워크인 AMMNet을 제안한다. AMMNet은 모달리티 간 상호 의존적 gradient 업데이트를 통해 개별 모달리티의 잠재력을 더 잘 unleash하고, 맞춤형 적대적 훈련 기법을 통해 과적합을 완화한다.
SLCF-Net은 RGB 이미지와 희소 LiDAR 측정치를 순차적으로 융합하여 장면의 기하학적 구조와 의미론적 정보를 동시에 추정하는 새로운 접근 방식을 제안한다.
현실 세계의 체적 요소는 모두 동등하지 않으며, 이를 고려하여 하드니스 인지 및 자기 증류 기법을 통해 의미론적 장면 완성 성능을 향상시킬 수 있다.
이 논문에서는 입력 이미지의 고유한 특징을 효과적으로 포착하고 관심 영역 내에서 정보를 집계하는 컨텍스트 인식 쿼리 생성기를 사용하여 컨텍스트 종속 쿼리를 초기화하는, 새롭고 효율적인 컨텍스트 및 기하학 인식 복셀 트랜스포머(CGVT)를 제안합니다.