제안된 S2TPVFormer 모델은 시간적 주의 메커니즘을 통해 3D 의미 점유 예측 성능을 향상시킨다.
OccGen은 다중 모달 입력을 활용하여 점진적으로 3D 의미 점유 지도를 생성하는 생성형 인지 모델이다.
본 논문은 다중 뷰 이미지 특징을 3D 특징 볼륨으로 변환하는 효율적인 방법인 InverseMatrixVT3D를 소개한다. 이 방법은 두 개의 투영 행렬을 사용하여 정적 매핑 관계를 저장하고 행렬 곱셈을 통해 전역 Bird's Eye View (BEV) 특징과 지역 3D 특징 볼륨을 효율적으로 생성한다.