核心概念
비전 기반 모델(VFM)의 일반적이고 정보가 풍부한 특징을 활용하여 스테레오 매칭 성능을 향상시킬 수 있다.
摘要
이 연구는 비전 기반 모델(VFM)의 일반적이고 정보가 풍부한 특징을 활용하여 스테레오 매칭 성능을 향상시키는 방법을 제안한다. 주요 내용은 다음과 같다:
- 공간 차별화 모듈(SDM)을 통해 다중 스케일 컨텍스트 정보를 캡처하여 초기 특징 피라미드를 생성한다.
- 패치 주의 융합 모듈(PAFM)을 통해 지역 및 전역 특징 가중치를 별도로 학습하여 효율적으로 다중 스케일 컨텍스트 정보를 융합한다.
- 교차 주의 모듈(CAM)을 통해 스테레오 컨텍스트 정보를 특징에 통합한다.
- 제안된 ViTAS를 비용 볼륨 기반 스테레오 매칭 백엔드 프로세스와 결합한 ViTAStereo는 KITTI Stereo 2012 데이터셋에서 최고 순위를 달성하고, StereoBase 대비 약 7.9% 향상된 성능을 보인다.
- 다양한 시나리오에 걸친 추가 실험을 통해 ViTAStereo의 뛰어난 일반화 성능을 입증한다.
统计
제안된 ViTAS는 KITTI Stereo 2012 데이터셋에서 StereoBase 대비 약 7.9% 향상된 성능을 보인다.
ViTAStereo는 KITTI Stereo 2015 데이터셋에서 배경 영역의 D1-all을 약 5.47% 개선하고, 전체 D1-all을 약 5.66% 개선한다.
引用
"비전 기반 모델(VFM)은 이미지 분할(픽셀 수준 분류) 및 단안 깊이 추정(픽셀 수준 회귀)을 위해 학습된 특징은 비용 볼륨 구축 단계에서 유사성 측정에 충분히 구별되지 않는다."
"비용 볼륨을 완전히 포기하고 단일 뷰 특징에서 직접 시차를 회귀하는 것은 일반화 성능 저하의 주요 원인일 수 있다."