이 논문은 CLIP (Contrastive Language-Image Pretraining)의 인간과 유사한 시각 및 언어 이해 능력을 활용하여 영상 분류 성능을 향상시키는 방법을 제안한다.
첫째, 영상 분류 시 배경, 방향 등 문맥 정보를 고려하는 것이 성능 향상에 도움이 된다는 것을 확인했다. 실험 결과, 문맥 정보를 활용하면 기존 방식 대비 약 5%의 정확도 향상을 보였다.
둘째, CLIP 자체가 영상의 문맥 정보를 어느 정도 추론할 수 있음을 확인했다. 실험 결과, CLIP은 배경, 방향 등 문맥 정보를 약 74% 정확도로 추론할 수 있었다.
이를 바탕으로 저자들은 PerceptionCLIP이라는 2단계 영상 분류 방법을 제안했다. 첫 번째 단계에서는 CLIP을 활용해 영상의 문맥 정보를 추론하고, 두 번째 단계에서는 추론된 문맥 정보를 활용해 영상을 분류한다. 실험 결과, PerceptionCLIP은 기존 방식 대비 일반화 성능, 그룹 강건성, 해석 가능성이 향상되었다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Bang An,Sich... a las arxiv.org 03-19-2024
https://arxiv.org/pdf/2308.01313.pdfConsultas más profundas