본 논문에서는 로봇 운동 제어와 같은 상태 기반 연속 제어 작업에서 유클리드 데이터 증강 기법을 사용하여 강화 학습의 데이터 효율성과 성능을 향상시키는 방법을 제시합니다.
본 논문에서는 강화학습에서 신경망 분해를 통해 재사용 가능한 하위 정책(sub-policy)을 추출하고, 이를 옵션으로 활용하여 새로운 작업에 대한 학습 속도를 향상시키는 방법을 제시합니다.
이 논문에서는 데이터 효율성을 높이면서도 정책 개선 보장을 유지하는, 이론적으로 뒷받침되는 샘플 재사용 방법을 통해 기존의 정책 개선 알고리즘을 향상시키는 방법을 제시합니다.
본 논문에서는 오프라인 목표 조건 강화 학습에서 보상 신호 없이 미래 상태 예측 코딩을 활용하여 의사 결정 트랜스포머의 성능을 향상시키는 PCDT 프레임워크를 제안합니다.
로짓-Q 동역학은 스토캐스틱 팀에서 효율적인 균형에 수렴하며, 이를 위해 로그-선형 학습과 Q-학습을 결합한다.
본 연구는 모델 기반 제어 원리와 적대적 강화학습 훈련을 통합하여 외부 블랙박스 적대자 없이도 강건성을 향상시키는 새로운 강건 정책 훈련 프레임워크를 제안한다.
강화학습에서 더 나은 가치 추정을 위해 이중 액터-크리틱 프레임워크에 시간차 오차 기반 정규화를 도입한 새로운 알고리즘을 제안한다.
최적화된 몬테카를로 트리 탐색 알고리즘은 누적 보상과 방문 횟수 테이블을 활용하여 동결호수 환경에서 효율적인 학습을 달성하며, 기존 방법들에 비해 높은 보상과 성공률을 보여줍니다.
딥큐 네트워크(DQN)는 초기 정책보다 우수한 정책을 학습하지 못할 수 있으며, 때로는 최악의 정책으로 수렴할 수 있다.
LLMs의 사전 지식을 활용하여 강화학습 에이전트의 행동을 평가하고 보상 형성을 자동화할 수 있다.