보상 학습 과정에서 자동화된 전략과 의도적인 전략 간의 시간에 따른 변화를 보여준다.
또래 학습은 개별 에이전트가 시행착오를 통해 학습하는 기존 강화학습과 달리, 동료 에이전트들이 함께 과제를 마스터하는 새로운 학습 프레임워크이다. 에이전트들은 서로의 상태와 추천 행동을 공유하며, 이를 통해 복잡한 정책을 학습할 수 있다.
Peer learning enables a group of reinforcement learning agents to simultaneously learn complex policies by exchanging action recommendations, outperforming single-agent learning and state-of-the-art action advising baselines.
다양한 과제에 걸쳐 일반화되는 정책을 학습하기 위해 전문가들의 직교 표현을 활용하는 새로운 접근법을 제안한다.
Curriculum reinforcement learning can improve the learning performance of agents by generating a tailored sequence of learning tasks, starting from easy ones and subsequently increasing their difficulty. This work proposes two algorithms, CURROT and GRADIENT, that leverage optimal transport to generate such curricula in a principled manner, avoiding the limitations of existing methods.
강건한 제약 마르코프 의사결정 프로세스(RCMDP)를 위한 두 가지 알고리즘인 강건한 라그랑지안 RCPG와 적대적 RCPG를 제안한다. 이 알고리즘들은 기존 RCPG의 한계를 해결하여 전체 제약 목적함수에 대한 강건성과 점진적 학습을 제공한다.
The paper proposes two algorithms, RCPG with Robust Lagrangian and Adversarial RCPG, to address limitations of the existing Robust Constrained Policy Gradient (RCPG) algorithm for optimizing policies in Robust Constrained Markov Decision Processes (RCMDPs).
옵션 프레임워크를 활용하여 자율적으로 탐색 모드와 활용 모드를 전환할 수 있는 에이전트 모델을 제안한다.
オプションフレームワークを活用し、エージェントが自律的に探索モードと活用モードを切り替えられる手法を提案する。多様な探索モードを持ち、状況に応じて最適なモードを選択できるようにする。
An autonomous non-monolithic agent with multi-mode exploration based on an options framework to enable flexible and adaptive exploration-exploitation behavior.