Core Concepts
옵션 프레임워크를 활용하여 자율적으로 탐색 모드와 활용 모드를 전환할 수 있는 에이전트 모델을 제안한다.
Abstract
이 연구는 강화학습에서 탐색 문제를 다루고 있다. 대부분의 기존 연구는 '어떻게 탐색할 것인가'에 초점을 맞추었지만, '언제 탐색할 것인가'에 대한 연구는 부족했다.
이 연구에서는 옵션 프레임워크를 활용하여 자율적으로 탐색 모드와 활용 모드를 전환할 수 있는 에이전트 모델을 제안한다. 제안 모델은 다음과 같은 특징을 가진다:
옵션 프레임워크를 활용하여 다중 탐색 모드와 활용 모드를 체인 형태로 구성할 수 있다.
정책 자체의 특성을 활용하여 탐색 모드와 활용 모드 간 자율적인 전환이 가능하다.
보상 수정을 통한 유도 탐색 전략을 사용하여 탐색 모드의 선택을 유도할 수 있다.
온라인 평가 과정을 통해 강건한 최적 정책을 유지할 수 있다.
실험 결과, 제안 모델은 기존 비단일체 탐색 모델과 단일체 탐색 모델 대비 우수한 성능을 보였다. 이를 통해 옵션 프레임워크 기반의 자율적 다중 모드 탐색이 효과적임을 확인할 수 있다.
Stats
강화학습 에이전트의 탐색 모드와 활용 모드의 수행 횟수는 다음과 같다:
총 수행 단계 중 TD3 활용 모드 > PPO 탐색 모드 > 균일 무작위 탐색 모드 순으로 많은 비중을 차지한다.
에피소드 초반에는 탐색 모드의 비중이 높지만, 점차 활용 모드의 비중이 증가한다.
Quotes
"옵션 프레임워크를 활용하여 다중 탐색 모드와 활용 모드를 체인 형태로 구성할 수 있다."
"정책 자체의 특성을 활용하여 탐색 모드와 활용 모드 간 자율적인 전환이 가능하다."
"보상 수정을 통한 유도 탐색 전략을 사용하여 탐색 모드의 선택을 유도할 수 있다."
"온라인 평가 과정을 통해 강건한 최적 정책을 유지할 수 있다."