Core Concepts
비전-언어 네비게이션 에이전트는 사용자의 자연어 지침에 포함된 오류에 취약하므로, 이를 탐지하고 위치를 확인하는 기능이 필요하다.
Abstract
이 연구는 비전-언어 네비게이션(VLN) 에이전트의 취약점을 다룹니다. 기존 VLN 방법들은 사용자가 제공한 지침이 정확하다고 가정하지만, 실제로는 사용자의 기억 부족이나 혼란으로 인해 오류가 발생할 수 있습니다. 이 연구에서는 다음과 같은 내용을 다룹니다:
지침 오류의 유형(방향, 객체, 공간, 공간&객체, 전체)을 정의하고, 이를 반영한 새로운 벤치마크 데이터셋 R2RIE-CE를 제안합니다.
기존 VLN 방법들이 오류가 있는 지침에 취약함을 실험적으로 보여줍니다. 최대 25%의 성공률 하락이 관찰되었습니다.
지침 오류 탐지 및 위치 확인이라는 새로운 과제를 정의하고, 이를 해결하기 위한 방법인 IEDL을 제안합니다. IEDL은 지침과 에이전트의 관찰 정보를 융합하여 오류를 효과적으로 탐지하고 위치를 확인합니다.
IEDL은 기존 VLN 데이터셋에서 오류가 있는 에피소드를 발견할 수 있음을 보여줍니다. 이는 VLN 평가에 중요한 시사점을 제공합니다.
Stats
지침 오류가 있는 경우 최대 25%의 성공률 하락이 관찰되었습니다.
IEDL 모델은 지침 오류 탐지에서 평균 AUC 0.82를 달성하였습니다.
IEDL 모델은 지침 오류 위치 확인에서 평균 절대 토큰 거리 7.46을 달성하였습니다.
Quotes
"Exit the bathroom and go left (✓right), then turn left at the big clock and go into the bedroom and wait next to the bed."
"Go down the hallway and turn right (✓left) when you see the plant near the bathroom (✓bedroom)."