이 논문은 범용 소수 샷 인스턴스 인지 문제를 다룬다. 기존 접근법은 개별 작업에 특화된 모델을 사용하지만, 이는 확장성이 낮다. 이 논문에서는 UniFS라는 범용 모델을 제안한다. UniFS는 다양한 인스턴스 인지 작업(객체 탐지, 인스턴스 분할, 자세 추정, 객체 계수)을 포인트 표현 학습 프레임워크로 통합한다.
UniFS의 핵심 아이디어는 다양한 인스턴스 인지 작업을 일반화된 포인트 표현 학습 패러다임으로 재구성하는 것이다. 지원 이미지의 사용자 정의 포인트 주석을 제공하면 모델이 쿼리 이미지에 대한 작업별 포인트를 학습할 수 있다. 이를 통해 작업 간 통일된 표현, 모델 아키텍처, 학습 패러다임을 달성할 수 있다.
또한 UniFS는 포인트 간 구조적 관계를 고려하는 구조 인식 포인트 학습(SAPL) 기법을 제안한다. SAPL은 개별 포인트 오류뿐만 아니라 인접 포인트 간 각도 정보도 활용하여 공간 의존성을 더 잘 포착한다.
실험 결과, UniFS는 작업별 전문 모델과 비교해 경쟁력 있는 성능을 보였다. 또한 객체 계수 작업에서 보이지 않았던 작업에 대한 일반화 능력도 입증했다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Sheng Jin,Ru... kl. arxiv.org 05-01-2024
https://arxiv.org/pdf/2404.19401.pdfDybere Forespørgsler