核心概念
제로샷 상황 인식을 위해 언어 모델을 활용하여 동작, 역할 그리고 객체에 대한 풍부한 설명을 제공함으로써 복잡한 장면 이해를 향상시킨다.
摘要
이 논문은 제로샷 상황 인식(Zero-Shot Grounded Situation Recognition, ZS-GSR)을 위한 새로운 접근법인 LEX(Language EXplainer)를 제안한다. ZS-GSR은 이미지에서 동작(동사)을 인식하고 관련된 의미 역할(명사)을 탐지하는 복잡한 작업이다. 기존 방법들은 클래스 기반 프롬프트에 의존하여 동작 구분, 역할 위치 파악, 객체 인식에 어려움을 겪었다.
LEX는 이러한 한계를 극복하기 위해 언어 모델을 활용한다. 구체적으로 LEX는 다음 3가지 설명자를 제안한다:
- 동작 설명자: 동작 클래스에 대한 일반적인 설명을 생성하여 동작 구분을 향상시킨다.
- 역할 설명자: 동작 중심 템플릿을 재구성하여 의미 역할 위치 파악을 개선한다.
- 객체 설명자: 장면 특정적인 객체 설명을 생성하여 객체 인식의 문맥 적합성을 높인다.
이러한 설명자들을 각 단계에 적용함으로써 LEX는 복잡한 장면 이해 능력을 크게 향상시킨다. 실험 결과, LEX는 SWiG 데이터셋에서 기존 방법 대비 월등한 성능을 보였다.
統計資料
이미지에서 "구매"라는 동작을 인식하는 경우, 관련 의미 역할로는 "구매자", "상품", "결제수단", "판매자", "장소" 등이 포함된다.
이미지에서 "공부"라는 동작을 인식하는 경우, 관련 의미 역할로는 "학생", "책 또는 노트", "펜 등의 문구류" 등이 포함된다.
이미지에서 "코기기"라는 동작을 인식하는 경우, 관련 의미 역할로는 "사람", "휴지 또는 손수건" 등이 포함된다.
引述
"책 또는 노트가 보이고, 문구류 등이 있는 것은 공부하는 장면을 나타낸다."
"손이 물건을 잡고 있는 것은 코기는 행동을 나타낸다."
"배경에 다양한 색상이 있는 것은 색칠하는 장면을 나타낸다."