본 논문에서는 상태 의존 전환 시스템의 최적 제어 정책을 학습하기 위해 상태 의존 다중 에이전트 심층 결정적 정책 경사(SMADDPG) 방법을 제안하고, 기존의 단일 에이전트 DDPG 알고리즘에 비해 향상된 성능과 안정적인 학습 결과를 보여줍니다.
본 논문에서는 복잡하고 긴 지평선 제어 작업에서 높은 성능을 유지하면서도 설명 가능성을 크게 향상시킨 새로운 계층적 스킬 기반 심층 강화 학습 프레임워크인 스킬트리를 제안합니다.
온라인 미세 조정 결정 트랜스포머의 성능을 향상시키기 위해 TD3 그레이디언트를 추가하는 간단하면서도 효과적인 방법을 제안합니다. 특히 저품질 오프라인 데이터로 사전 훈련된 경우 효과적입니다.
본 논문에서는 복잡한 보조 손실이나 사전 훈련 없이 픽셀 수준 관찰에서 직접 후속 특징(SF)을 학습하는 간단하고 효율적인 새로운 방법을 제안합니다.
본 논문에서는 소프트 액터-크리틱 (SAC) 알고리즘에서 tanh 변환으로 인해 발생하는 액션 분포 왜곡 문제를 해결하기 위해 최적의 액션 샘플링 방법을 제안하고, 이를 통해 SAC 알고리즘의 성능을 향상시키는 방법을 제시합니다.
본 논문에서는 로봇 운동 제어와 같은 상태 기반 연속 제어 작업에서 유클리드 데이터 증강 기법을 사용하여 강화 학습의 데이터 효율성과 성능을 향상시키는 방법을 제시합니다.
본 논문에서는 강화학습에서 신경망 분해를 통해 재사용 가능한 하위 정책(sub-policy)을 추출하고, 이를 옵션으로 활용하여 새로운 작업에 대한 학습 속도를 향상시키는 방법을 제시합니다.
이 논문에서는 데이터 효율성을 높이면서도 정책 개선 보장을 유지하는, 이론적으로 뒷받침되는 샘플 재사용 방법을 통해 기존의 정책 개선 알고리즘을 향상시키는 방법을 제시합니다.
본 논문에서는 오프라인 목표 조건 강화 학습에서 보상 신호 없이 미래 상태 예측 코딩을 활용하여 의사 결정 트랜스포머의 성능을 향상시키는 PCDT 프레임워크를 제안합니다.
로짓-Q 동역학은 스토캐스틱 팀에서 효율적인 균형에 수렴하며, 이를 위해 로그-선형 학습과 Q-학습을 결합한다.