이 논문은 제로샷 상황 인식(Zero-Shot Grounded Situation Recognition, ZS-GSR)을 위한 새로운 접근법인 LEX(Language EXplainer)를 제안한다. ZS-GSR은 이미지에서 동작(동사)을 인식하고 관련된 의미 역할(명사)을 탐지하는 복잡한 작업이다. 기존 방법들은 클래스 기반 프롬프트에 의존하여 동작 구분, 역할 위치 파악, 객체 인식에 어려움을 겪었다.
LEX는 이러한 한계를 극복하기 위해 언어 모델을 활용한다. 구체적으로 LEX는 다음 3가지 설명자를 제안한다:
이러한 설명자들을 각 단계에 적용함으로써 LEX는 복잡한 장면 이해 능력을 크게 향상시킨다. 실험 결과, LEX는 SWiG 데이터셋에서 기존 방법 대비 월등한 성능을 보였다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Jiaming Lei,... at arxiv.org 04-25-2024
https://arxiv.org/pdf/2404.15785.pdfDeeper Inquiries