이 논문은 강화학습 정책 테스트에 품질 다양성 최적화를 적용하는 방법을 제안한다.
주요 내용은 다음과 같다:
정책 테스트 문제를 품질 다양성 최적화 문제로 재정의한다. 이를 위해 솔루션의 행동 특성과 품질을 정의한다.
두 가지 품질 다양성 최적화 알고리즘(MAP-Elites, Novelty Search)을 구현하여 제안 방법을 실현한다.
세 가지 강화학습 환경(Lunar Lander, Bipedal Walker, Taxi)에서 제안 방법과 기존 정책 테스트 기법을 비교 평가한다.
실험 결과, 품질 다양성 최적화 기반 정책 테스트가 기존 기법에 비해 더 많은 다양한 결함을 발견할 수 있음을 보여준다. 특히 MAP-Elites 알고리즘이 안정적인 성능을 보인다. 또한 행동 공간 정의가 성능에 영향을 미치는 것으로 나타났다.
이 연구는 강화학습 정책 테스트에 품질 다양성 최적화를 적용하는 새로운 접근법을 제시하였으며, 다양한 결함 발견을 위한 효과적인 방법임을 입증하였다.
Başka Bir Dile
kaynak içeriğinden
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Quentin Mazo... : arxiv.org 03-25-2024
https://arxiv.org/pdf/2403.15065.pdfDaha Derin Sorular