핵심 개념
Transformer-Encoder를 활용한 깊이 추정 알고리즘의 혁신적인 접근
초록
I. 소개
컴퓨터 비전에서의 단일 이미지로부터의 깊이 추정의 중요성
Transformer-Encoder 아키텍처를 활용한 특수 깊이 추정 알고리즘
II. 관련 연구
NRF, Continuous CRFs, Fully Connected CRFs, Unsupervised Learning Framework, Self-Supervised Monodepth2, Self-Supervised Learning with Self-Attention, AdaBins with Transformer Network
III. 방법론
데이터 전처리: DFT를 활용한 주파수 도메인 변환
인코더 설명: Residual Convolutional Neural Network 아키텍처 활용
특징 행렬 처리: Transformer 아키텍처를 통한 특징 행렬 처리
특징 퓨전: 주파수 도메인 이미지와 원본 이미지의 특징 퓨전
디코더 설명: 저해상도 데이터를 고해상도로 업샘플링
손실 함수 설명: MSE와 SSIM을 결합한 복합 손실 함수
IV. 성능 평가
다양한 파라미터 설정에 대한 모델 성능 평가
NYU-Depth V2 데이터셋 및 KITTI 데이터셋에서의 테스트 결과
다른 모델과의 성능 비교
V. 결론
Transformer-Encoder 아키텍처를 활용한 깊이 추정 알고리즘의 효과적인 성능
SSIM과 MSE 손실 함수의 조합을 통한 정확성 향상
통계
NYU Depth Dataset 및 KITTI Depth Dataset를 통한 모델 성능 향상
Adam optimizer를 사용한 초기 학습률: 1 × 10^-4
총 에폭 수: 20, 배치 크기: 16
다양한 𝛼 값 (0.3, 0.4, 0.5, 0.6, 0.7, 0.8)에 대한 모델 테스트 결과
인용구
"이 연구는 Transformer 모델의 성공을 모방하여 복잡한 공간 관계를 캡처하여 깊이 추정 정확도를 향상시키는 것에 초점을 맞추었습니다."
"이 연구는 SSIM과 MSE를 결합한 복합 손실 함수를 채택하여 깊이 맵 예측의 정확성을 구조적 및 픽셀 수준에서 균형을 맞추려고 합니다."