Core Concepts
멀티모달 대형 언어 모델이 실제 세계 시나리오에서 몰입형 계획 작업을 수행하는 능력을 평가하기 위해 EgoPlan-Bench 벤치마크를 소개한다.
Abstract
이 논문은 멀티모달 대형 언어 모델(MLLM)의 실제 세계 몰입형 계획 능력을 평가하기 위한 EgoPlan-Bench 벤치마크를 소개한다.
EgoPlan-Bench는 다음과 같은 특징을 가진다:
실제 세계 비디오에서 추출한 현실적인 작업
수백 개의 다양한 객체와의 상호작용을 포함하는 다양한 행동
다양한 실제 세계 장면에서 나온 복잡한 시각적 관찰
논문에서는 다양한 MLLM을 EgoPlan-Bench에 평가했으며, 현재 MLLM은 실제 세계 몰입형 계획 일반화 모델이 되기에는 아직 부족함을 보여주었다.
이를 해결하기 위해 EgoPlan-IT라는 지침 튜닝 데이터셋을 구축했다. EgoPlan-IT로 튜닝된 모델은 벤치마크에서 큰 성능 향상을 보였고, 시뮬레이션 환경에서 에이전트를 안내하는 계획자로 활용될 수 있음을 보였다.
Stats
현재 관찰에서 요구르트가 고기에 섞여 있음을 인식하지 못했다.
요구르트 용기의 상태 변화를 충분히 파악하지 못했다.
Quotes
"현재 관찰에서 손이 요구르트가 담긴 숟가락을 들고 있다고 잘못 해석했다."
"요구르트를 고기에 넣는 단계가 이미 완료되었음을 인식하지 못했다."