Core Concepts
로봇이 3D 의미 지도를 기반으로 다중 뷰 이미지를 수집하고, SimSiam 모델을 미세 조정하여 주어진 쿼리 이미지와 동일한 객체 인스턴스를 효과적으로 검색할 수 있다.
Abstract
이 연구에서는 로봇 보조 환경에서 사용자가 원하는 특정 객체 인스턴스를 찾는 문제를 다룬다. 이를 위해 로봇이 3D 의미 지도를 기반으로 다중 뷰 이미지를 수집하고, 이를 활용하여 SimSiam 모델을 미세 조정하는 방법을 제안한다.
먼저, 로봇은 환경을 탐색하며 객체 이미지를 수집하고 3D 의미 지도에 기반하여 각 객체의 인스턴스 ID를 부여한다. 이렇게 수집된 다중 뷰 이미지를 활용하여 SimSiam 모델을 미세 조정한다. 이때 분류기를 동시에 학습하여 인스턴스 식별 성능을 높인다.
미세 조정된 모델은 주어진 쿼리 이미지와 환경에서 관측된 객체 이미지들 간의 유사도를 계산하여 가장 유사한 인스턴스를 찾아낸다. 이를 통해 로봇은 사용자가 원하는 특정 객체 인스턴스의 위치를 3D 의미 지도에서 확인할 수 있다.
실험 결과, 제안 방법인 SimView는 CLIP 등 기존 방법에 비해 객체 인스턴스 검색 성능이 우수한 것으로 나타났다. 이는 단일 모달 대비 다중 모달 학습인 CLIP이 세부적인 인스턴스 식별에 취약한 반면, 제안 방법은 이미지 간 대비 학습을 통해 인스턴스 식별 성능을 높일 수 있기 때문이다. 또한 로봇이 관측한 다중 뷰 이미지를 활용한 미세 조정이 성능 향상에 기여하였다.
Stats
로봇이 관측한 동일 객체의 다양한 각도 이미지들은 외관이 크게 달라질 수 있어, 이를 효과적으로 처리하는 것이 중요하다.
제안 방법인 SimView는 CLIP 대비 1.7배 높은 객체 인스턴스 검색 정확도를 보였다.
Quotes
"로봇이 관측한 객체의 다양한 각도 이미지를 효과적으로 처리하는 것이 중요하다."
"제안 방법인 SimView는 CLIP 대비 1.7배 높은 객체 인스턴스 검색 정확도를 보였다."