로짓-Q 동역학은 스토캐스틱 팀에서 효율적인 균형에 수렴하며, 이를 위해 로그-선형 학습과 Q-학습을 결합한다.
본 연구는 모델 기반 제어 원리와 적대적 강화학습 훈련을 통합하여 외부 블랙박스 적대자 없이도 강건성을 향상시키는 새로운 강건 정책 훈련 프레임워크를 제안한다.
강화학습에서 더 나은 가치 추정을 위해 이중 액터-크리틱 프레임워크에 시간차 오차 기반 정규화를 도입한 새로운 알고리즘을 제안한다.
최적화된 몬테카를로 트리 탐색 알고리즘은 누적 보상과 방문 횟수 테이블을 활용하여 동결호수 환경에서 효율적인 학습을 달성하며, 기존 방법들에 비해 높은 보상과 성공률을 보여줍니다.
딥큐 네트워크(DQN)는 초기 정책보다 우수한 정책을 학습하지 못할 수 있으며, 때로는 최악의 정책으로 수렴할 수 있다.
LLMs의 사전 지식을 활용하여 강화학습 에이전트의 행동을 평가하고 보상 형성을 자동화할 수 있다.
준사실적 설명은 강화학습 에이전트의 행동을 이해하고 설명하는 데 도움을 줄 수 있다.
EXP 기반 알고리즘은 보상이 제한된 비확률적 밴딧 문제에서 탐험을 위해 자주 사용됩니다. 우리는 EXP4를 수정하여 새로운 알고리즘 EXP4.P를 제안하고, 제한된 및 무제한 하위 가우시안 컨텍스트 밴딧 환경에서의 후회 한계를 확립합니다. 무제한 보상 결과는 수정된 EXP3.P 버전에도 적용됩니다. 또한 우리는 단기 시간 범위에서는 선형 후회가 달성될 수 없음을 시사하는 후회 한계 하한을 제공합니다. 모든 분석은 고전적인 것과 달리 제한된 보상을 요구하지 않습니다. 또한 우리는 EXP4.P를 컨텍스트 밴딧에서 강화학습으로 확장하여 블랙박스 보상에 대한 다중 에이전트의 탐험을 장려합니다. 결과 알고리즘은 탐험이 어려운 게임에서 테스트되었으며 최신 기술에 비해 탐험 성능이 향상되었습니다.
적대적 마르코프 의사결정 프로세스에서 비관적 후회 분석의 한계를 극복하기 위해, 비용 예측기를 활용하여 낙관적 후회 한계를 달성하는 새로운 정책 탐색 방법을 제안한다.
정책 경사 기법을 통해 확률적 정책을 학습하고, 이를 바탕으로 결정론적 정책을 구현하는 방법에 대한 이론적 분석을 제공한다.