Endless Memory Gym environments rigorously test the memory effectiveness of reinforcement learning agents, revealing that a recurrent GRU agent consistently outperforms a transformer-based Transformer-XL agent across various tasks.
제안된 단일 루프 딥 액터-크리틱 (SLDAC) 알고리즘은 비볼록 확률적 제약 조건과 환경과의 상호 작용 비용이 높은 일반적인 제약 강화 학습 문제를 해결할 수 있으며, 초기 실행 가능한 점에서 KKT 점으로 수렴할 수 있음을 이론적으로 보장한다.
The proposed single-loop deep actor-critic (SLDAC) algorithm can efficiently solve constrained reinforcement learning problems with non-convex stochastic constraints and high interaction cost, while provably converging to a Karush-Kuhn-Tucker (KKT) point.
본 연구에서는 기존의 안전한 강화학습 기법들의 한계를 극복하고자, 사전에 정의된 제약 조건 대신 데이터로부터 학습 가능한 제약 조건 모델을 제안하였다. 이를 통해 복잡한 실세계 환경에서의 장기 안전성을 보장하면서도 성능 향상을 달성할 수 있다.
An enhanced-state reinforcement learning algorithm that leverages user features, item features, and other valuable information to generate personalized fusion weights for each user-item pair, outperforming existing RL-based multi-task fusion methods in large-scale recommender systems.
An integrated reinforcement learning and model predictive control framework is proposed to efficiently solve finite-horizon optimal control problems in mixed-logical dynamical systems.
운영 기술 사이버 보안 환경에서 데이터 효율성과 성능 향상을 위해 액션 마스킹과 커리큘럼 학습 기법을 적용하여 강화 학습 에이전트의 성능을 높였다.
Applying action masking and curriculum learning techniques can significantly improve the data efficiency and overall performance of reinforcement learning agents in remediating cyber attacks on operational technology systems.
LLM을 활용하여 다중 에이전트 최적화 및 계획 문제에서 인간 선호도 기반 보상 함수를 설계하는 문제를 다룸. 다중 목표 최적화 문제를 사회적 선택 이론을 통해 해결하는 투명하고 구성 가능한 프레임워크를 제안함.
Exploration during training can improve generalization performance in reinforcement learning, even for states that cannot be explicitly encountered during training.