Core Concepts
오프라인 데이터를 온라인 알고리즘의 경험 재생 버퍼에 포함시키는 간단한 방법으로도 오프라인 데이터의 품질이 낮은 경우에도 온라인 학습 성능을 향상시킬 수 있다.
Abstract
이 논문은 오프라인 데이터의 품질이 낮은 경우에도 온라인 알고리즘의 성능을 향상시킬 수 있는 하이브리드 강화학습 알고리즘을 제안한다.
기존 연구에서는 오프라인 데이터의 단일 정책 집중가능성(single-policy concentrability)을 가정했지만, 이 논문에서는 이 가정이 필요 없다.
상태-행동 공간을 오프라인 파티션과 온라인 파티션으로 나누고, 각 파티션에 대한 복잡도 척도를 정의한다.
이를 통해 하이브리드 알고리즘의 regret 상한을 최적의 파티션에 대한 복잡도 척도로 특성화할 수 있다.
제안된 DISC-GOLF 알고리즘은 기존 온라인 전용 및 오프라인 전용 알고리즘 대비 성능 향상을 보인다.
시뮬레이션 실험에서도 하이브리드 알고리즘이 오프라인 데이터로 커버되지 않은 상태-행동 공간을 더 잘 탐험함을 확인했다.
Stats
오프라인 데이터셋의 크기 Noff와 온라인 에피소드 수 Non의 비율 Non/Noff가 작을수록 오프라인 복잡도 척도의 영향이 감소한다.
온라인 파티션의 크기가 작을수록 온라인 복잡도 척도의 영향이 감소한다.
Quotes
"오프라인 데이터의 품질이 낮은 경우에도 온라인 알고리즘의 성능을 향상시킬 수 있다."
"상태-행동 공간을 오프라인 파티션과 온라인 파티션으로 나누고, 각 파티션에 대한 복잡도 척도를 정의한다."
"하이브리드 알고리즘의 regret 상한을 최적의 파티션에 대한 복잡도 척도로 특성화할 수 있다."