이 논문은 로봇 모방 학습에서 정책의 강건성을 높이기 위한 IntervenGen (I-Gen) 시스템을 제안한다. 모방 학습 정책은 학습 데이터와 다른 환경에서 성능이 저하될 수 있는데, 이를 해결하기 위해 대화형 모방 학습 기법이 사용된다. 대화형 모방 학습에서는 인간 운영자가 정책 실행 중 정책 실수를 발견하면 개입하여 복구 행동을 시연한다. 그러나 이러한 개입 데이터를 충분히 수집하는 것은 어려운 문제이다.
I-Gen은 소수의 인간 개입으로부터 자동으로 대량의 개입 데이터를 생성하는 시스템이다. I-Gen은 다음과 같은 과정을 통해 작동한다:
I-Gen은 4개의 시뮬레이션 환경과 1개의 실제 환경에 적용되었으며, 10개의 인간 개입만으로도 정책 강건성을 최대 39배 향상시킬 수 있었다. 또한 I-Gen은 동일한 인간 데이터 예산으로 다른 기법들보다 우수한 성능을 보였다. 마지막으로 I-Gen으로 학습한 정책은 실제 환경에서도 강건성을 유지하였다.
เป็นภาษาอื่น
จากเนื้อหาต้นฉบับ
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Ryan Hoque,A... ที่ arxiv.org 05-03-2024
https://arxiv.org/pdf/2405.01472.pdfสอบถามเพิ่มเติม