Core Concepts
비전-언어 네비게이션 과제에서 관찰 가능한 및 관찰 불가능한 혼란 변수를 종합적으로 고려하여 인과 학습 기반의 접근법을 제안하였다. 이를 통해 편향된 학습을 완화하고 일반화 성능을 향상시킬 수 있었다.
Abstract
이 논문은 비전-언어 네비게이션(VLN) 과제에서 데이터셋 편향 문제를 해결하기 위해 인과 학습 기반의 접근법을 제안한다.
먼저, VLN 시스템에 대한 구조적 인과 모델을 구축하여 관찰 가능한 및 관찰 불가능한 혼란 변수를 종합적으로 고려하였다. 관찰 가능한 혼란 변수는 지침의 키워드와 환경의 방 참조 등 쉽게 식별할 수 있는 요소들이며, 관찰 불가능한 혼란 변수는 장식 스타일, 문장 패턴, 궤적 경향 등 복잡한 스타일 관련 요소들이다.
이를 바탕으로 두 가지 인과 학습 모듈을 제안하였다. 첫째, 관찰 가능한 혼란 변수를 다루기 위한 Back-door Adjustment Causal Learning (BACL) 모듈이다. 둘째, 관찰 불가능한 혼란 변수를 다루기 위한 Front-door Adjustment Causal Learning (FACL) 모듈이다. 또한 Cross-modal Feature Pooling (CFP) 모듈을 제안하여 서로 다른 모달리티의 특징을 효과적으로 통합하고 혼란 변수 사전을 구축하였다.
제안 모델 GOAT는 다양한 VLN 벤치마크 데이터셋에서 기존 최신 기법들을 뛰어넘는 성능을 보였다. 이는 인과 학습 기반의 접근법이 VLN과 같은 복잡한 과제에서 편향을 효과적으로 완화하고 일반화 성능을 향상시킬 수 있음을 보여준다.
Stats
지침에 포함된 키워드의 수는 74개이다.
환경에 포함된 방 유형은 50개이다.
Quotes
"비전-언어 네비게이션(VLN) 과제에서 데이터셋 편향 문제를 해결하기 위해 인과 학습 기반의 접근법을 제안한다."
"관찰 가능한 혼란 변수와 관찰 불가능한 혼란 변수를 종합적으로 고려하여 Back-door Adjustment Causal Learning (BACL) 모듈과 Front-door Adjustment Causal Learning (FACL) 모듈을 제안하였다."
"Cross-modal Feature Pooling (CFP) 모듈을 통해 서로 다른 모달리티의 특징을 효과적으로 통합하고 혼란 변수 사전을 구축하였다."