이 논문은 언어 모델(LLM)을 활용하여 로봇 조작 작업의 모드 구조를 학습하고, 이를 바탕으로 강건한 제어 정책을 구축하는 방법을 제안한다.
먼저, 소수의 성공적인 데모 트라젝토리에 인위적인 교란을 가하여 데이터 커버리지를 확장하고, 실패 사례를 생성한다. 이를 통해 모드 간 전이 제약 조건을 학습할 수 있다.
다음으로, LLM을 활용하여 데모의 모드 구조와 상태 표현을 정의한다. 이를 바탕으로 설명 기반 학습 프레임워크를 통해 연속 상태를 이산 모드로 매핑하는 분류기를 학습한다.
학습된 모드 분류기는 모드 간 전이 제약을 인코딩하여, 모드 기반 제어 정책을 학습하거나 계획 알고리즘을 구현하는 데 활용될 수 있다. 이를 통해 외부 교란에 강건한 로봇 행동을 달성할 수 있다.
제안 방법은 2D 네비게이션, 시뮬레이션 및 실제 로봇 조작 작업에서 우수한 성능을 보였다. 특히 교란에 강건한 정책 학습이 가능하다는 점이 주목할 만하다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yanwei Wang,... at arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17124.pdfDeeper Inquiries