오프라인 강화 학습 문제를 해결하기 위해 Decision ConvFormer 모델에 Q-value 정규화 기법을 적용하여 성능을 향상시킨다.
This paper proposes a resilient reinforcement learning-based control method for discrete-time linear systems with unknown parameters under denial-of-service (DoS) attacks. The method learns the optimal controller using policy iteration while ensuring closed-loop stability and output regulation despite DoS attacks.
Inverse Constrained Reinforcement Learning (ICRL) aims to infer the implicit constraints followed by expert agents from their demonstration data, in order to enable reliable and safe deployment of reinforcement learning agents in real-world applications.
전문가 시연 데이터에 있는 상태 정보만을 활용하여 강화 학습 에이전트의 탐색 능력을 향상시키는 자기 지도 모방 학습 방법을 제안한다.
A novel self-supervised imitation learning method is proposed to leverage expert demonstrations consisting of pure states, without action labels, to guide and enhance reinforcement learning for automated surgical task execution.
The Mamba Decision Maker (MambaDM) effectively captures both global and local features of reinforcement learning trajectories through a novel global-local fusion Mamba (GLoMa) module, achieving state-of-the-art performance in offline reinforcement learning tasks.
本文提出了一個名為線上決策元形轉換器(ODM)的框架,旨在通過統一的模型架構實現自我意識、環境識別和行動規劃。ODM代理能夠從他人學習、認知世界並根據自身經驗進行實踐,可應用於任意具有多關節身體的代理,位於不同環境中,並使用大規模預訓練數據集進行不同類型的任務訓練。
온라인 결정 메타모프포머(ODM)는 자기 인식, 환경 인식, 행동 계획을 통합한 모델 아키텍처를 제안하여 다양한 과제와 환경에 적응할 수 있는 범용 지능을 달성하고자 한다.
다중 에이전트 강화 학습에서 가치 요인화는 확장 가능한 알고리즘을 설계하는 데 널리 사용되는 패러다임이지만, 현재의 요인화 방법은 성능을 제한할 수 있는 선택을 하고 있다. 이 연구에서는 상태 정보를 활용하는 요인화 이론을 분석하고, 개별 에이전트의 효용 추정기를 학습하는 DuelMIX라는 새로운 요인화 알고리즘을 제안한다.
다중 의도 역 Q-학습(HIQL) 알고리즘은 전문가 궤적을 다중 의도 세그먼트로 나누고 각각에 대해 독립적으로 역 강화 학습 문제를 해결하여, 해석 가능한 보상 함수를 생성한다.