이 논문은 개방형 어휘 분할(Open-Vocabulary Segmentation, OVS) 작업의 효율성을 높이기 위한 방법을 제안한다. OVS는 기존 분할 모델의 한계를 극복하고 임의의 텍스트 설명을 통해 다양한 카테고리를 분할할 수 있게 한다.
그러나 최근 OVS 모델들은 큰 모델 크기와 비싼 학습 비용으로 인해 실제 적용에 어려움이 있다. 이를 해결하기 위해 저자들은 다음과 같은 두 가지 접근법을 제안한다:
모델 효율성: 의미 정보에 대한 의존성 없이 CLIP 이미지 인코더를 압축하여 전이 가능한 서브네트워크를 만든다. 이를 통해 다양한 OVS 프레임워크에 직접 적용할 수 있다.
학습 효율성: 사전 학습된 가중치의 스펙트럼 분석을 통해 학습이 부족한 레이어만 선택적으로 미세 조정한다. 이를 통해 학습 비용을 크게 줄일 수 있다.
실험 결과, 제안 방법은 기존 OVS 모델 대비 크기와 계산량을 크게 줄이면서도 성능을 유지할 수 있음을 보여준다. 이를 통해 OVS 기술의 실용성을 높일 수 있을 것으로 기대된다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Jingxuan Xu,... at arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07448.pdfDeeper Inquiries