Core Concepts
비전-언어 네비게이션 과제에서 관찰된 시각적 정보와 언어 지침 간의 의미적 격차를 줄이고 정렬을 단순화하기 위해 행동 원자 개념을 도입하였다.
Abstract
이 논문은 비전-언어 네비게이션(VLN) 과제에서 에이전트가 복잡한 시각적 관찰을 언어 지침에 정렬하여 목표 위치에 도달하는 문제를 다룬다. 기존 VLN 에이전트들은 원시 방향 특징과 one-hot 레이블로 학습된 시각 특징을 언어 지침 특징에 직접 정렬하였지만, 이로 인해 큰 의미적 격차가 발생하여 성능이 제한되었다.
이를 해결하기 위해 저자들은 Actional Atomic-Concept Learning (AACL)이라는 새로운 프레임워크를 제안했다. AACL은 시각적 관찰을 행동 원자 개념으로 매핑하여 관찰과 지침 간 정렬을 단순화한다. 행동 원자 개념은 원자 행동과 객체로 구성된 자연어 구문이다.
AACL은 3가지 핵심 구성요소를 가진다:
관찰을 행동 원자 개념 표현으로 매핑하는 개념 매핑 모듈
CLIP 모델의 예측 객체 개념을 지침에 맞게 재순위화하는 개념 정제 어댑터
개념 표현을 사용하여 관찰 표현을 정규화하는 관찰 공동 임베딩 모듈
실험 결과, AACL은 미세 조정(R2R) 및 고수준(REVERIE, R2R-Last) VLN 벤치마크에서 새로운 최신 성과를 달성했다. 또한 행동 원자 개념을 통해 AACL은 행동 결정의 해석 가능성을 크게 향상시켰다.
Stats
"turn right"
"go forward"
"turn left"
"go up"
"go down"
Quotes
"행동 원자 개념은 관찰과 지침 간 의미적 격차를 효과적으로 완화하고 정렬을 단순화할 수 있다."
"AACL은 미세 조정 및 고수준 VLN 벤치마크에서 새로운 최신 성과를 달성했다."
"행동 원자 개념을 통해 AACL은 행동 결정의 해석 가능성을 크게 향상시켰다."