본 연구 논문에서는 레이블링 된 데이터 없이도 제로샷 이미지 분류 성능을 향상시키는 새로운 프레임워크인 Frolic을 제안합니다. Frolic은 크게 두 가지 핵심 기술을 기반으로 합니다.
기존의 제로샷 이미지 분류 모델들은 각 클래스를 나타내는 단일 프로토타입 프롬프트를 사용했습니다. 그러나 이러한 방식은 다양한 시각적 표현을 충분히 반영하지 못한다는 한계가 있습니다. Frolic은 이를 개선하기 위해 가우시안 분포를 사용하여 클래스 프로토타입의 분포를 모델링합니다.
기존의 프롬프트 분포 학습 방법들은 레이블링 된 데이터를 필요로 했지만, Frolic은 레이블 정보 없이도 데이터의 1차 및 2차 모멘트 정보만을 사용하여 각 클래스에 대한 분포를 추론할 수 있습니다. 이를 통해 레이블링 비용을 절감하면서도 다양한 시각적 표현을 효과적으로 학습할 수 있습니다.
대규모 데이터셋으로 사전 학습된 비전 모델들은 데이터셋의 편향을 내재적으로 학습하게 됩니다. Frolic은 레이블 없는 로그잇 조정 기술을 통해 이러한 편향을 효과적으로 수정합니다.
기존의 방법들은 사전 학습 데이터셋에 접근하거나 레이블링 된 데이터를 사용하여 편향을 수정했습니다. 그러나 Frolic은 레이블링 되지 않은 테스트 데이터만을 사용하여 로그잇을 조정함으로써 사전 학습 데이터셋에 대한 의존성을 제거하고 레이블링 비용을 최소화합니다.
본 논문에서는 16개의 이미지 분류 벤치마크 데이터셋을 사용하여 Frolic의 성능을 평가했습니다. 그 결과 Frolic은 기존의 제로샷 이미지 분류 모델들보다 높은 성능을 보였으며, 특히 CLIP ViT-B/16 모델을 사용했을 때 10개의 데이터셋에서 평균 2.6%의 성능 향상을 보였습니다. 또한 ImageNet 데이터셋과 5개의 분포 변화 데이터셋에서도 평균 1.5%의 성능 향상을 보였습니다.
Frolic은 레이블링 된 데이터 없이도 제로샷 이미지 분류 성능을 향상시키는 효과적인 프레임워크입니다. Frolic은 프롬프트 분포 학습을 통해 다양한 시각적 표현을 학습하고, 레이블 없는 로그잇 조정을 통해 사전 학습된 모델의 편향을 수정합니다. 본 연구는 제로샷 학습 분야에서 레이블링 비용을 절감하고 모델의 성능을 향상시키는 데 기여할 것으로 기대됩니다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询