Core Concepts
불완전하고 잡음이 있는 실제 세계 데모에서 확률적 프로그래밍 정책을 합성하는 새로운 접근법 PLUNDER를 제안한다.
Abstract
이 논문은 불완전하고 잡음이 있는 실제 세계 데모에서 확률적 프로그래밍 정책을 합성하는 새로운 접근법 PLUNDER를 제안한다.
PLUNDER는 기대 최대화(EM) 알고리즘을 사용하여 동시에 누락된 행동 레이블을 추론하고 최적의 확률적 정책을 합성한다. E 단계에서는 현재 정책을 사용하여 후보 행동 레이블 시퀀스를 샘플링하고, M 단계에서는 이러한 레이블을 최대화하는 새로운 정책을 합성한다. 이 과정은 수렴할 때까지 반복된다.
PLUNDER는 5가지 표준 모방 학습 벤치마크에 적용되었으며, 기존 접근법보다 19% 더 정확하게 데모를 따르고 작업을 완료하는 데 17% 더 성공적인 것으로 나타났다. 또한 PLUNDER는 노이즈가 많은 데모에서도 강건한 성능을 보였다.
Stats
차량 최대 속도 vmax는 약 13m/s2 이다.
차량 최대 감속도 amin은 약 -20m/s2 이다.
정지 거리 dstop은 약 26.3m 이다.
Quotes
"PLUNDER는 불완전하고 잡음이 있는 실제 세계 데모에서 확률적 프로그래밍 정책을 합성하는 새로운 접근법이다."
"PLUNDER는 기대 최대화(EM) 알고리즘을 사용하여 동시에 누락된 행동 레이블을 추론하고 최적의 확률적 정책을 합성한다."
"PLUNDER는 5가지 표준 모방 학습 벤치마크에서 기존 접근법보다 19% 더 정확하게 데모를 따르고 작업을 완료하는 데 17% 더 성공적이었다."