Core Concepts
비전-언어 모델의 성능을 향상시키기 위해 다중 지식 표현을 활용한 프롬프트 학습 최적화 방법을 제안한다.
Abstract
이 논문은 비전-언어 모델의 성능을 향상시키기 위한 방법을 제안한다. 비전-언어 모델은 다양한 멀티모달 응용 분야에서 핵심적인 역할을 하지만, 단순한 텍스트 프롬프트로는 이미지의 복잡성을 충분히 반영하지 못하는 한계가 있다.
이를 해결하기 위해 저자들은 다중 지식 표현(Multi-Knowledge Representation)을 도입한다. 다중 지식 표현에는 시각적 지식(Visual Knowledge), 비시각적 지식(Non-Visual Knowledge), 종합적 지식(Panoramic Knowledge) 등 3가지 유형이 포함된다. 이를 통해 이미지에 대한 다양한 관점과 수준의 지식을 프롬프트에 반영할 수 있다.
저자들은 다중 지식 표현을 활용하는 CoKnow 프레임워크를 제안한다. CoKnow는 프롬프트 학습을 위한 최적화기와 다중 지식 표현을 자동으로 생성하는 경량 시맨틱 지식 매퍼로 구성된다. 실험 결과, CoKnow는 다양한 벤치마크 데이터셋에서 기존 방법들을 뛰어넘는 성능을 보였다.
Stats
비전-언어 모델인 CLIP은 이미지 분류 작업에서 종종 잘못된 예측을 하는 경우가 있다.
CIFAR-10 데이터셋에서 CLIP의 정확도는 82.03%로 개구리로 잘못 분류했지만, 다중 지식 표현을 도입하면 정확도가 96.85%로 향상되었다.
Quotes
"To fully utilize the capabilities of CLIP, we propose to enhance the prompt context by incorporating knowledge from multiple perspectives at multiple abstraction levels, or in short Multi-Knowledge."
"Experimentally, We conducted extensive experiments on 11 publicly available datasets, demonstrating that CoKnow outperforms a series of previous methods."