이 논문은 선택적 주의력이 인간 지각의 핵심 특성이지만 현재 트랜스포머 기반 표현 학습 모델에는 결여되어 있다는 점을 지적한다. 이에 따라 저자들은 Sparo라는 새로운 읽기 메커니즘을 제안한다. Sparo는 트랜스포머 인코딩을 개별적으로 주의를 기울이는 슬롯으로 분할하여 표현한다.
실험 결과, Sparo를 CLIP과 DINO 모델에 적용하면 제로샷 인식, 강건성, 구성적 일반화, 검색 등의 성능이 향상된다. 저자들은 Sparo의 슬롯 구조를 활용하여 개별 개념을 선택적으로 활용할 수 있음을 보여주며, 이를 통해 Sparo의 표현 구조의 강건성을 입증한다. 또한 Sparo의 설계 선택을 뒷받침하는 실험적 분석과 함께 학습된 개념에 대한 시각화를 제공한다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Ankit Vani,B... at arxiv.org 04-25-2024
https://arxiv.org/pdf/2404.15721.pdfDeeper Inquiries