Concepts de base
LightStereo는 3D 비용 볼륨의 채널 차원에 집중하여 2D 비용 집계를 효율적으로 수행하는 가벼운 스테레오 매칭 네트워크로, 정확도와 효율성을 모두 개선하여 실시간 애플리케이션에 적합하다.
Résumé
LightStereo: 효율적인 2D 비용 집계를 위한 채널 부스트
본 논문에서는 효율적인 스테레오 매칭을 위해 고안된 최첨단 스테레오 매칭 네트워크인 LightStereo를 제안한다. LightStereo는 기존의 계산 집약적인 4D 비용 집계 방식에서 벗어나 3D 비용 볼륨을 가벼운 대안으로 채택한다. 이와 유사한 접근 방식이 이전에 연구되었지만, LightStereo는 매칭 비용 분포가 캡슐화된 3D 비용 볼륨의 채널 차원에 집중하여 성능을 향상시키는 데 있어 획기적인 발전을 이루었다.
2D 비용 집계: LightStereo는 3D 비용 볼륨을 구성하고 채널 부스트를 통해 강화된 2D CNN을 사용하여 효율성과 정확성의 균형을 맞춘다.
역 잔차 블록: LightStereo는 역 잔차 블록을 사용하여 disparsity 추정 정확도를 높인다. 먼저 disparity 채널 수를 늘린 다음, depthwise convolution을 적용하고, 마지막으로 확장된 특징을 저차원 공간으로 다시 투사하여 특징 표현을 크게 향상시킨다.
다중 스케일 Convolutional Attention Module (MSCA): MSCA 모듈은 왼쪽 이미지에서 특징을 추출하여 비용 집계를 향상시킨다. 다양한 커널 크기(1 × 1, 7 × 1, 1 × 7, 11 × 1, 1 × 11, 21 × 1, 1 × 21)를 가진 depthwise separable convolution을 통합하여 이미지 내의 길쭉한 구조를 식별하는 데 중요한 수평 및 수직 스트립과 같은 특징을 캡처한다.
네트워크 아키텍처: LightStereo는 특징 추출, 비용 계산, 비용 집계 및 disparity 예측의 네 가지 구성 요소로 구성된다.
다중 스케일 특징 추출: MobileNetV2 모델을 활용하여 네 가지 스케일(1/4, 1/8, 1/16, 1/32 해상도)에서 특징 맵을 추출한다.
비용 볼륨: 왼쪽 특징 맵(fl,4)과 오른쪽 특징 맵(fr,4)에서 상관 관계 볼륨을 구성한다.
비용 집계: 1/4, 1/8, 1/16 해상도에서 역 잔차 블록을 사용하여 비용 볼륨을 집계하고 각 해상도에서 왼쪽 이미지를 사용하여 다중 스케일 convolutional attention을 적용한다.
Disparity 회귀: soft-argmax를 사용하여 최종 disparity 맵을 예측한다.
손실 함수: smooth L1 손실을 사용하여 LightStereo를 학습시킨다.
LightStereo는 SceneFlow 및 KITTI 벤치마크에서 최첨단 성능을 달성했으며, 특히 LightStereo-S 구성은 실시간 스테레오 매칭을 위한 매력적인 솔루션을 제공하며 계산 효율성과 깊이 추정 정확도 사이의 유리한 trade-off를 제공한다.