이 논문은 모노크롬 깊이 추정을 위한 새로운 경량 비전 트랜스포머 아키텍처인 METER를 제안한다. METER는 다음과 같은 핵심 구성 요소를 포함한다:
경량 비전 트랜스포머 인코더: 기존 비전 트랜스포머 모델보다 계산 복잡도가 낮으면서도 성능을 유지하는 새로운 모듈을 제안했다. 이를 통해 저전력 임베디드 하드웨어에서 실시간 추정이 가능하다.
균형 잡힌 손실 함수: 깊이 추정의 정량적 정확도와 이미지 세부 사항의 복원을 균형 있게 고려하는 새로운 손실 함수를 제안했다.
새로운 데이터 증강 전략: 입력 이미지와 정답 깊이 맵에 대한 동시 변환을 통해 모델의 일반화 성능을 높였다.
제안된 METER 아키텍처는 실내 NYU Depth v2와 실외 KITTI 벤치마크 데이터셋에서 기존 경량 모델 대비 우수한 성능을 보였다. 또한 4GB NVIDIA Jetson TX1 및 Nano 임베디드 하드웨어에서 실시간 추정이 가능한 것으로 나타났다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by L. Papa,P. R... at arxiv.org 03-14-2024
https://arxiv.org/pdf/2403.08368.pdfDeeper Inquiries