이 논문은 세부적인 자연어 지침을 활용하여 복잡한 조작 작업을 단계별로 수행할 수 있는 에이전트를 개발하는 것을 목표로 한다.
먼저, NrVLM이라는 새로운 벤치마크를 제안한다. 이 벤치마크는 15가지 다양한 조작 작업을 포함하며, 각 작업마다 세부적인 자연어 지침이 제공된다.
다음으로, 제안하는 프레임워크는 시각적 관측, 에이전트 상태, 고수준 언어 지침, 세부적인 언어 지침을 활용하여 단계별로 조작 행동을 예측한다. 특히, 동작 프롬프트와 인지 프롬프트를 활용하여 언어와 조작 간의 연관성을 학습한다.
실험 결과, 제안하는 방법이 다양한 기존 접근법에 비해 우수한 성능을 보인다. 이를 통해 세부적인 자연어 지침이 복잡한 조작 작업을 수행하는 데 매우 중요함을 확인할 수 있다.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы