이 논문은 모방 학습에 보간 기반 정책 확산 방법을 적용하는 새로운 접근법을 제안한다. 기존의 확산 기반 모방 학습 방법은 표준 정규 분포에서 시작하여 목표 정책으로 이동하지만, 이는 종종 성능 저하로 이어진다. 저자들은 보다 정보가 풍부한 소스 정책에서 시작하면 이러한 한계를 극복할 수 있다고 제안한다.
이를 위해 저자들은 이론적 분석을 통해 소스 정책의 품질이 최종 목표 정책의 품질에 미치는 영향을 보여준다. 이를 바탕으로 BRIDGER라는 새로운 방법을 제안한다. BRIDGER는 보간 기반 확산 프레임워크를 활용하여 임의의 소스 정책에서 목표 정책으로 이동할 수 있다.
실험 결과, BRIDGER는 다양한 로봇 벤치마크 과제에서 기존 방법들을 능가하는 성능을 보였다. 특히 소스 정책이 우수할 경우 적은 확산 단계에서도 우수한 성능을 달성할 수 있었다. 또한 보간 함수 설계에 따른 영향도 분석하였다.
이 연구는 모방 학습에 보간 기반 접근법을 처음으로 적용했다는 점에서 의의가 있다. 향후 로봇의 지속적인 학습을 위해 과거 정책을 활용하는 방법에 대한 기반을 마련했다고 볼 수 있다.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor