본 논문은 일반화된 범주 발견(GCD) 문제를 해결하기 위한 새로운 접근법을 제안한다. GCD는 레이블이 지정된 '알려진' 클래스 이미지에서 지식을 전이하여 레이블이 지정되지 않은 '알려지지 않은' 클래스 이미지를 분류하는 문제이다.
기존 GCD 방법은 사전 학습된 자기 지도 모델을 부분적으로 미세 조정하는 데 초점을 맞추었다. 그러나 저자들은 모델 매개변수뿐만 아니라 데이터 매개변수도 동시에 최적화하는 것이 더 효율적이고 성능 향상에도 도움이 된다고 주장한다.
이를 위해 저자들은 두 단계 반복 학습 프레임워크 SPTNet을 제안한다. 첫 번째 단계에서는 모델 매개변수를 고정하고 데이터 매개변수인 프롬프트를 최적화한다. 두 번째 단계에서는 프롬프트 매개변수를 고정하고 모델 매개변수를 최적화한다. 이 과정을 반복하여 모델과 데이터 매개변수를 동시에 학습한다.
또한 저자들은 공간 프롬프트 튜닝(SPT) 기법을 제안한다. SPT는 입력 이미지를 패치로 나누고 각 패치에 학습 가능한 프롬프트를 추가한다. 이를 통해 사전 학습된 모델과 타겟 작업의 판별적 이미지 영역 간 정렬을 향상시킨다.
실험 결과, SPTNet은 기존 GCD 방법보다 약 10% 높은 정확도를 달성했으며, 이는 모델 매개변수 대비 0.117%의 추가 매개변수만으로 달성한 것이다. 이는 SPTNet의 효율성과 효과성을 보여준다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문