FGRL(Feudal Graph Reinforcement Learning)이라는 새로운 계층적 그래프 기반 강화 학습 프레임워크를 통해 복잡한 제어 문제를 해결하고, 계층적 의사 결정 구조를 구현하여 작업 분해를 가능하게 합니다.
연속 공간에서 안전 요구 사항의 실현 가능성을 자동으로 보장하는 셸 기반 접근 방식을 제안합니다. 이를 통해 안전성을 유지하면서도 에이전트의 성능을 최적화할 수 있습니다.
사전 학습된 표현 모델을 활용하여 목표 네트워크와 예측기 네트워크의 표현을 개선함으로써 의미 있고 안정적인 내재적 보상을 생성하고 모델의 표현 학습을 향상시킨다.
에너지 기반 정책은 복잡하고 다중 모드 행동을 모델링하는 유연한 프레임워크를 제공하지만, 연속 행동 공간에서 이러한 정책에서 직접 샘플링하는 것은 계산적으로 어렵다. 이 논문에서는 확산 기반 접근법을 사용하여 에너지 기반 정책에서 샘플링하는 방법을 제안한다.
이 논문은 보상 추론 없이 인간 피드백을 활용하여 일반적인 강화 학습 문제를 해결하는 두 가지 알고리즘을 제안한다. 이 알고리즘들은 정책 네트워크 매개변수의 국소적인 가치 함수 차이를 추정하고 이를 바탕으로 제로 순서 정책 경사도를 근사한다.
비차별화 목표를 최적화하기 위해 강화 학습 기술을 사용하는 것이 중요하다. 이를 통해 감독 학습의 한계를 극복하고 실제 세계 문제에 적용할 수 있다.
이 논문은 상태 및 제어 변수에 의존하는 확산 계수를 가진 연속 시간 선형-2차 강화 학습 문제에 대해 모델 프리 접근법을 제안하고 있다. 제안된 알고리즘은 정책 경사 기반 액터-크리틱 알고리즘이며, 정책 매개변수의 수렴 속도와 아 하위 선형 후회 한계를 제공한다.
준-쌍곡선 할인은 인간의 즉각적인 만족 선호를 모델링하는 데 효과적이지만, 이로 인해 최적 정책이 시간 불일치성을 보일 수 있다. 이를 해결하기 위해 마르코프 완전 균형(MPE)이라는 개념이 도입되었으며, 본 연구에서는 MPE를 찾는 최초의 모델 없는 강화 학습 알고리즘을 제안한다.
강화 학습 정책의 안전성을 보장하면서도 해석 가능한 방법인 VERINTER를 제안한다. VERINTER는 모델 검사와 신경망 가지치기를 결합하여 신경망 연결의 안전성에 대한 영향을 정량적으로 분석할 수 있다.
강화 학습 에이전트의 샘플 효율성을 높이고 정책의 설명 가능성을 향상시키기 위해 인간의 직관을 확률적 그래프 모델로 인코딩하여 활용하는 SHIRE 프레임워크를 제안한다.