Core Concepts
JIST는 대규모 레이블이 없는 이미지 데이터를 활용하여 연속적인 시각적 장소 인식 성능을 향상시킨다. 또한 SeqGeM 레이어를 통해 매우 압축된 시퀀스 기술자를 생성하여 빠른 추론 속도를 달성한다.
Abstract
이 논문은 시각적 장소 인식(VPR)을 다룬다. VPR은 로봇 응용 프로그램에서 SLAM과 위치 추정을 위해 사용되는 핵심 기능이다. 일반적으로 VPR은 로봇이 연속적인 프레임 스트림에 액세스할 수 있는 시퀀스-대-시퀀스 문제로 다루어진다.
저자들은 다음과 같은 기여를 제안한다:
대규모 레이블이 없는 이미지 데이터를 활용하여 시퀀스-대-시퀀스 VPR 작업을 개선하는 새로운 다중 작업 학습 프레임워크인 JIST를 제안한다.
개별 프레임 기술자를 시간 축을 따라 집계하는 SeqGeM 레이어를 소개한다. 이를 통해 매우 압축된 기술자를 생성하고 추론 속도를 높일 수 있다.
이전 최신 기술 대비 성능이 우수하고 추론 속도가 빠르며 모델 크기가 작다는 것을 보여준다.
실험 결과, JIST는 이전 최신 기술 대비 우수한 성능을 달성하며, 8배 더 작은 기술자와 가벼운 아키텍처를 사용하여 빠른 추론 속도를 제공한다. 또한 SeqGeM은 입력 시퀀스 길이에 유연하고 프레임 순서에 불변적이라는 장점이 있다.
Stats
기존 최신 기술 대비 8배 더 작은 512차원 기술자로도 90.6%의 Recall@1을 달성한다.
시퀀스 길이가 5일 때, 기존 최신 기술 대비 추론 속도가 약 10배 빠르다.
Quotes
"JIST는 대규모 레이블이 없는 이미지 데이터를 활용하여 연속적인 시각적 장소 인식 성능을 향상시킨다."
"SeqGeM 레이어를 통해 매우 압축된 시퀀스 기술자를 생성하여 빠른 추론 속도를 달성한다."