이 논문에서는 데이터 효율성을 높이면서도 정책 개선 보장을 유지하는, 이론적으로 뒷받침되는 샘플 재사용 방법을 통해 기존의 정책 개선 알고리즘을 향상시키는 방법을 제시합니다.
본 논문에서는 오프라인 목표 조건 강화 학습에서 보상 신호 없이 미래 상태 예측 코딩을 활용하여 의사 결정 트랜스포머의 성능을 향상시키는 PCDT 프레임워크를 제안합니다.
로짓-Q 동역학은 스토캐스틱 팀에서 효율적인 균형에 수렴하며, 이를 위해 로그-선형 학습과 Q-학습을 결합한다.
본 연구는 모델 기반 제어 원리와 적대적 강화학습 훈련을 통합하여 외부 블랙박스 적대자 없이도 강건성을 향상시키는 새로운 강건 정책 훈련 프레임워크를 제안한다.
강화학습에서 더 나은 가치 추정을 위해 이중 액터-크리틱 프레임워크에 시간차 오차 기반 정규화를 도입한 새로운 알고리즘을 제안한다.
최적화된 몬테카를로 트리 탐색 알고리즘은 누적 보상과 방문 횟수 테이블을 활용하여 동결호수 환경에서 효율적인 학습을 달성하며, 기존 방법들에 비해 높은 보상과 성공률을 보여줍니다.
딥큐 네트워크(DQN)는 초기 정책보다 우수한 정책을 학습하지 못할 수 있으며, 때로는 최악의 정책으로 수렴할 수 있다.
LLMs의 사전 지식을 활용하여 강화학습 에이전트의 행동을 평가하고 보상 형성을 자동화할 수 있다.
준사실적 설명은 강화학습 에이전트의 행동을 이해하고 설명하는 데 도움을 줄 수 있다.
EXP 기반 알고리즘은 보상이 제한된 비확률적 밴딧 문제에서 탐험을 위해 자주 사용됩니다. 우리는 EXP4를 수정하여 새로운 알고리즘 EXP4.P를 제안하고, 제한된 및 무제한 하위 가우시안 컨텍스트 밴딧 환경에서의 후회 한계를 확립합니다. 무제한 보상 결과는 수정된 EXP3.P 버전에도 적용됩니다. 또한 우리는 단기 시간 범위에서는 선형 후회가 달성될 수 없음을 시사하는 후회 한계 하한을 제공합니다. 모든 분석은 고전적인 것과 달리 제한된 보상을 요구하지 않습니다. 또한 우리는 EXP4.P를 컨텍스트 밴딧에서 강화학습으로 확장하여 블랙박스 보상에 대한 다중 에이전트의 탐험을 장려합니다. 결과 알고리즘은 탐험이 어려운 게임에서 테스트되었으며 최신 기술에 비해 탐험 성능이 향상되었습니다.