이 논문은 비전-언어 사전 학습 모델의 효율성을 높이기 위한 방법을 제안한다. 기존의 비전-언어 사전 학습 모델들은 Vision Transformer (ViT)를 사용하여 이미지 특징을 추출하지만, 긴 시각 시퀀스로 인한 계산 비용 증가 문제가 있다.
저자들은 Text-Relevant Image Patch Selection (TRIPS)라는 기법을 제안한다. TRIPS는 텍스트 정보를 활용하여 중요한 이미지 패치를 선별하고 불필요한 패치를 융합함으로써 시각 인코더와 cross-modal 융합 과정의 효율성을 높인다. 구체적으로:
저자들은 TRIPS를 대표적인 비전-언어 사전 학습 모델 3종(ALBEF, mPLUG, ViLT)에 적용하여 실험을 진행했다. 실험 결과, TRIPS를 적용한 모델들이 약 40%의 효율 향상을 보이면서도 기존 모델 대비 경쟁력 있거나 더 나은 성능을 달성했다. 또한 입력 이미지 해상도를 높여도 동일한 계산 비용으로 성능을 더 높일 수 있음을 보였다.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Wei Ye,Chaoy... klokken arxiv.org 03-14-2024
https://arxiv.org/pdf/2403.07883.pdfDypere Spørsmål