무제한 보상을 가진 강화학습 탐험을 위한 EXP 기반 알고리즘의 후회 한계 및 분석
EXP 기반 알고리즘은 보상이 제한된 비확률적 밴딧 문제에서 탐험을 위해 자주 사용됩니다. 우리는 EXP4를 수정하여 새로운 알고리즘 EXP4.P를 제안하고, 제한된 및 무제한 하위 가우시안 컨텍스트 밴딧 환경에서의 후회 한계를 확립합니다. 무제한 보상 결과는 수정된 EXP3.P 버전에도 적용됩니다. 또한 우리는 단기 시간 범위에서는 선형 후회가 달성될 수 없음을 시사하는 후회 한계 하한을 제공합니다. 모든 분석은 고전적인 것과 달리 제한된 보상을 요구하지 않습니다. 또한 우리는 EXP4.P를 컨텍스트 밴딧에서 강화학습으로 확장하여 블랙박스 보상에 대한 다중 에이전트의 탐험을 장려합니다. 결과 알고리즘은 탐험이 어려운 게임에서 테스트되었으며 최신 기술에 비해 탐험 성능이 향상되었습니다.