Core Concepts
LLM을 활용한 데이터 없는 다중 레이블 이미지 인식을 위한 프롬프트 튜닝의 새로운 방법론 소개
Abstract
논문에서는 데이터 없는 다중 레이블 이미지 인식을 위한 새로운 프레임워크를 제안하며, LLM의 지식을 활용하여 CLIP을 다중 레이블 분류에 적응시키는 방법을 설명합니다.
ChatGLM을 통해 텍스트 설명을 획득하고 계층적 프롬프트를 학습하여 다중 레이블 이미지 인식의 성능을 향상시킵니다.
실험 결과는 MS-COCO, VOC2007 및 NUS-WIDE 데이터셋에서 우수한 성과를 보여줍니다.
Stats
우리의 방법은 MS-COCO 데이터셋에서 zero-shot multi-label recognition methods보다 4.7% 높은 mAP를 달성했습니다.
Quotes
"우리의 프레임워크는 새로운 객체를 다루는 유망한 방법을 제시하며 사전 훈련된 모델에만 의존하여 시각 인식에서 새로운 객체를 처리하는 효과적인 방법을 열어줍니다."
"ChatGLM에서 추출된 텍스트 설명을 활용하여 CLIP의 다중 레이블 인식 성능을 향상시키는 우리의 방법이 유망한 결과를 보여줍니다."