이 논문은 로봇 모방 학습에서 정책의 강건성을 높이기 위한 IntervenGen (I-Gen) 시스템을 제안한다. 모방 학습 정책은 학습 데이터와 다른 환경에서 성능이 저하될 수 있는데, 이를 해결하기 위해 대화형 모방 학습 기법이 사용된다. 대화형 모방 학습에서는 인간 운영자가 정책 실행 중 정책 실수를 발견하면 개입하여 복구 행동을 시연한다. 그러나 이러한 개입 데이터를 충분히 수집하는 것은 어려운 문제이다.
I-Gen은 소수의 인간 개입으로부터 자동으로 대량의 개입 데이터를 생성하는 시스템이다. I-Gen은 다음과 같은 과정을 통해 작동한다:
I-Gen은 4개의 시뮬레이션 환경과 1개의 실제 환경에 적용되었으며, 10개의 인간 개입만으로도 정책 강건성을 최대 39배 향상시킬 수 있었다. 또한 I-Gen은 동일한 인간 데이터 예산으로 다른 기법들보다 우수한 성능을 보였다. 마지막으로 I-Gen으로 학습한 정책은 실제 환경에서도 강건성을 유지하였다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Ryan Hoque,A... lúc arxiv.org 05-03-2024
https://arxiv.org/pdf/2405.01472.pdfYêu cầu sâu hơn