Core Concepts
다양한 기준선 정책들의 장점을 결합하여 전체 상태 공간에서 가장 좋은 성능을 내는 정책을 학습하는 것이 목표이다.
Abstract
이 논문은 강화 학습(RL) 문제를 다룬다. 여기서는 K개의 기준선 정책들이 주어지며, 각 정책은 상태 공간의 특정 부분에서 강한 성능을 보인다. 목표는 이 기준선 정책들의 장점을 결합하여 전체 상태 공간에서 가장 좋은 성능을 내는 정책을 학습하는 것이다.
논문의 주요 내용은 다음과 같다:
기준선 정책들의 데이터를 활용하여 최적의 정책을 학습하는 간단한 모방 학습 기반 알고리즘 BC-MAX를 제안한다.
BC-MAX의 샘플 복잡도 상한과 최소 상한을 보여준다.
컴파일러 인라이닝 최적화 문제에 BC-MAX를 적용하여 강력한 성능을 보인다. 초기 기준선 정책 대비 상당한 성능 향상을 달성한다.
Stats
각 모듈의 크기는 [0, 2^M) 범위에 있다.
최종 바이너리 크기는 개별 모듈 크기의 합과 다를 수 있다.
Quotes
"이 작업은 실제 세계 응용 프로그램에 강화 학습(RL)을 적용할 때 종종 중요한 장애물로 작용하는 두 가지 핵심 과제를 연구한다."
"이 특정 시나리오에서 RL의 사용은 종종 규칙 기반 또는 지도 학습 접근법을 사용한 이전 시도에 선행되며, 바람직하고 바람직하지 않은 동작에 대한 귀중한 데이터의 보물 창고를 제공한다."