Khái niệm cốt lõi
옵션 프레임워크를 활용하여 자율적으로 탐색 모드와 활용 모드를 전환할 수 있는 에이전트 모델을 제안한다.
Tóm tắt
이 연구는 강화학습에서 탐색 문제를 다루고 있다. 대부분의 기존 연구는 '어떻게 탐색할 것인가'에 초점을 맞추었지만, '언제 탐색할 것인가'에 대한 연구는 부족했다.
이 연구에서는 옵션 프레임워크를 활용하여 자율적으로 탐색 모드와 활용 모드를 전환할 수 있는 에이전트 모델을 제안한다. 제안 모델은 다음과 같은 특징을 가진다:
옵션 프레임워크를 활용하여 다중 탐색 모드와 활용 모드를 체인 형태로 구성할 수 있다.
정책 자체의 특성을 활용하여 탐색 모드와 활용 모드 간 자율적인 전환이 가능하다.
보상 수정을 통한 유도 탐색 전략을 사용하여 탐색 모드의 선택을 유도할 수 있다.
온라인 평가 과정을 통해 강건한 최적 정책을 유지할 수 있다.
실험 결과, 제안 모델은 기존 비단일체 탐색 모델과 단일체 탐색 모델 대비 우수한 성능을 보였다. 이를 통해 옵션 프레임워크 기반의 자율적 다중 모드 탐색이 효과적임을 확인할 수 있다.
Thống kê
강화학습 에이전트의 탐색 모드와 활용 모드의 수행 횟수는 다음과 같다:
총 수행 단계 중 TD3 활용 모드 > PPO 탐색 모드 > 균일 무작위 탐색 모드 순으로 많은 비중을 차지한다.
에피소드 초반에는 탐색 모드의 비중이 높지만, 점차 활용 모드의 비중이 증가한다.
Trích dẫn
"옵션 프레임워크를 활용하여 다중 탐색 모드와 활용 모드를 체인 형태로 구성할 수 있다."
"정책 자체의 특성을 활용하여 탐색 모드와 활용 모드 간 자율적인 전환이 가능하다."
"보상 수정을 통한 유도 탐색 전략을 사용하여 탐색 모드의 선택을 유도할 수 있다."
"온라인 평가 과정을 통해 강건한 최적 정책을 유지할 수 있다."