이 논문은 마인크래프트 시뮬레이터에서 작동하는 MineDreamer라는 개방형 체화된 에이전트를 소개한다. MineDreamer는 최근 발전한 멀티모달 대형 언어 모델(MLLM)과 확산 모델을 활용하여 지침 따르기 능력을 향상시킨다.
구체적으로 MineDreamer는 "상상력 연쇄(Chain-of-Imagination)" 메커니즘을 사용한다. 이 메커니즘은 현재 상태를 고려하여 단계별로 다음에 해야 할 일을 상상하고, 이를 현재 상태에 맞는 정확한 시각적 프롬프트로 변환하여 정책 네트워크에 제공한다. 이를 통해 에이전트가 지침을 안정적으로 따를 수 있게 한다.
또한 MineDreamer는 "목표 표류 수집" 방법을 사용하여 광범위한 체화된 데이터를 수집하고, MLLM 강화 확산 모델을 통해 물리적 규칙과 환경 이해를 반영한 상상력을 생성한다. 이를 통해 현재 상태에 더 잘 부합하는 시각적 프롬프트를 제공할 수 있다.
실험 결과, MineDreamer는 단일 및 다중 단계 지침을 안정적으로 따르는 데 있어 최고의 일반화 에이전트 기준선보다 크게 뛰어난 성능을 보였다. 또한 에이전트의 상상력 능력에 대한 정성적 분석을 통해 개방형 세계에 대한 일반화 및 이해 능력을 확인할 수 있었다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Enshen Zhou,... at arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.12037.pdfDeeper Inquiries