핵심 개념
전문가 시연으로부터 전이 동역학을 효율적으로 추정하기 위해, 본 논문에서는 제약 조건 기반 방법과 베이지안 추론을 결합한 역전이 학습(ITL)이라는 새로운 접근 방식을 제안합니다.
본 연구는 오프라인 모델 기반 강화 학습 환경에서 준 최적 전문가 궤적을 사용하여 전이 동역학 T∗를 추정하는 방법을 제시합니다.
본 논문에서는 제약 조건 기반 방법인 역전이 학습(ITL)을 제안합니다. 이 방법은 전문가 궤적의 제한된 범위를 특징으로 활용하여 전문가의 준 최적성을 통해 T∗를 추정합니다. 또한, 이러한 제약 조건을 베이지안 접근 방식에 통합하여 전이 동역학에 대한 사후 분포를 학습합니다.