핵심 개념
최적 수송 프레임워크를 활용하여 과제 난이도를 점진적으로 높이는 커리큘럼을 생성함으로써 강화 학습 에이전트의 성능을 향상시킬 수 있다.
초록
이 연구는 커리큘럼 강화 학습(CRL)에서 과제 분포 간 보간을 통해 커리큘럼을 생성하는 방법의 한계를 분석하고, 이를 해결하기 위해 최적 수송 프레임워크를 활용한 새로운 접근법을 제안한다.
기존 CRL 방법들은 과제 분포 간 유사도를 KL 발산으로 측정하고 기대 성능 제약을 사용하여 커리큘럼을 생성했다. 이 접근법에는 다음과 같은 한계가 있음을 보였다:
- KL 발산은 과제 간 유사도를 적절히 반영하지 못해 커리큘럼에 "점프"가 발생할 수 있다.
- 기대 성능 제약은 과도하게 쉽거나 어려운 과제를 포함하는 커리큘럼을 생성할 수 있다.
이를 해결하기 위해 저자들은 다음과 같은 두 가지 접근법을 제안했다:
- CURROT: 과제 간 유사도를 명시적으로 인코딩한 거리 함수를 사용하여 최적 수송 문제를 풀어 커리큘럼을 생성한다. 성능 제약을 만족하는 과제들에만 확률 질량을 할당한다.
- GRADIENT: 초기 과제 분포와 목표 과제 분포 간 바리센터 보간을 사용하여 커리큘럼을 생성한다. 에이전트 성능에 따라 보간 속도를 조절한다.
실험 결과, 제안된 두 방법 모두 기존 CRL 방법들보다 우수한 성능을 보였다. 특히 CURROT는 다양한 과제 공간과 거리 함수에서 일관되게 높은 성능을 달성했다.
통계
제안된 CURROT 알고리즘은 에이전트 성능 제약을 만족하는 과제들에만 확률 질량을 할당한다.
GRADIENT 알고리즘은 초기 과제 분포와 목표 과제 분포 간 바리센터 보간을 사용하여 커리큘럼을 생성한다.
인용구
"KL 발산은 과제 간 유사도를 적절히 반영하지 못해 커리큘럼에 "점프"가 발생할 수 있다."
"기대 성능 제약은 과도하게 쉽거나 어려운 과제를 포함하는 커리큘럼을 생성할 수 있다."