본 연구는 대규모 비전 모델에서 추출된 특징들 간의 합의를 통해 영상 간 매칭을 수행하는 새로운 접근법을 제안한다. 기존 방식은 픽셀 단위 최근접 이웃 검색을 통해 매칭을 수행하지만, 이는 전역적 구조를 고려하지 못하는 한계가 있다.
이에 본 연구는 기능 지도(functional map) 개념을 도입하여, 픽셀 공간에서 함수 공간으로 매칭 문제를 전환한다. 구체적으로, 두 개의 비전 모델에서 추출된 특징을 이용하여 라플라시안 고유함수 기저를 계산하고, 이를 바탕으로 전역적으로 일관된 매핑을 최적화한다. 이를 통해 기존 방식에 비해 더 부드럽고 정확한 매칭 결과를 얻을 수 있다.
실험 결과, 제안 방식은 다양한 기반 네트워크에서 일관되게 우수한 성능을 보였다. 특히 형태 변화, 시점 변화, 가림 등 어려운 경우에도 우수한 결과를 보였다. 또한 키포인트 매칭과 도구 기능 전이 등 다양한 응용 분야에서도 효과적인 것으로 나타났다.
본 연구는 대규모 비전 모델의 내재된 대응 능력을 효과적으로 활용하는 새로운 접근법을 제시했다는 점에서 의의가 있다. 향후 이를 바탕으로 일반적인 객체 대응 문제에 대한 연구가 더욱 발전할 것으로 기대된다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Xinle Cheng,... a las arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.12038.pdfConsultas más profundas