이 논문은 CLIP (Contrastive Language-Image Pretraining)의 인간과 유사한 시각 및 언어 이해 능력을 활용하여 영상 분류 성능을 향상시키는 방법을 제안한다.
첫째, 영상 분류 시 배경, 방향 등 문맥 정보를 고려하는 것이 성능 향상에 도움이 된다는 것을 확인했다. 실험 결과, 문맥 정보를 활용하면 기존 방식 대비 약 5%의 정확도 향상을 보였다.
둘째, CLIP 자체가 영상의 문맥 정보를 어느 정도 추론할 수 있음을 확인했다. 실험 결과, CLIP은 배경, 방향 등 문맥 정보를 약 74% 정확도로 추론할 수 있었다.
이를 바탕으로 저자들은 PerceptionCLIP이라는 2단계 영상 분류 방법을 제안했다. 첫 번째 단계에서는 CLIP을 활용해 영상의 문맥 정보를 추론하고, 두 번째 단계에서는 추론된 문맥 정보를 활용해 영상을 분류한다. 실험 결과, PerceptionCLIP은 기존 방식 대비 일반화 성능, 그룹 강건성, 해석 가능성이 향상되었다.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Bang An,Sich... um arxiv.org 03-19-2024
https://arxiv.org/pdf/2308.01313.pdfTiefere Fragen