核心概念
비전 언어 모델의 제한된 레이블 데이터에서 성능 향상을 위해 능동적 프롬프트 학습 기법을 제안한다.
摘要
이 논문은 비전 언어 모델(VLM)에서 능동적 프롬프트 학습(Active Prompt Learning)에 대해 다룬다.
- VLM은 이미지와 텍스트 간의 상호작용을 학습하여 다양한 제로샷 태스크에서 뛰어난 성능을 보인다.
- 그러나 새로운 태스크에 적응하기 위해서는 태스크 특화 지식이 필요하며, 이를 위해서는 레이블 데이터가 필요하다.
- 레이블 데이터 수집이 비싼 문제를 해결하기 위해 능동 학습(Active Learning)이 연구되어 왔다.
- 그러나 단순히 능동 학습을 VLM에 적용하면 오히려 성능이 저하되는 문제가 발생한다.
- 이는 VLM의 사전 학습된 지식이 클래스 불균형을 야기하기 때문이다.
- 이를 해결하기 위해 PCB(Pseudo-Class Balance)라는 새로운 능동 프롬프트 학습 알고리즘을 제안한다.
- PCB는 VLM의 사전 학습 지식을 활용하여 클래스 불균형 문제를 해결하고, 다양한 실험을 통해 기존 방법보다 우수한 성능을 보인다.
統計資料
비전 언어 모델은 이미지와 텍스트 간의 상호작용을 학습하여 제로샷 태스크에서 뛰어난 성능을 보인다.
새로운 태스크에 적응하기 위해서는 태스크 특화 지식이 필요하며, 이를 위해 레이블 데이터가 필요하다.
레이블 데이터 수집이 비싼 문제를 해결하기 위해 능동 학습이 연구되어 왔다.
단순히 능동 학습을 VLM에 적용하면 오히려 성능이 저하되는 문제가 발생한다.
이는 VLM의 사전 학습된 지식이 클래스 불균형을 야기하기 때문이다.
引述
"비전 언어 모델(VLMs)은 이미지와 텍스트 간의 상호작용을 학습하여 다양한 제로샷 태스크에서 뛰어난 성능을 보인다."
"새로운 태스크에 적응하기 위해서는 태스크 특화 지식이 필요하며, 이를 위해서는 레이블 데이터가 필요하다."
"단순히 능동 학습을 VLM에 적용하면 오히려 성능이 저하되는 문제가 발생한다."
"이는 VLM의 사전 학습된 지식이 클래스 불균형을 야기하기 때문이다."