준-쌍곡선 할인은 인간의 즉각적인 만족 선호를 모델링하는 데 효과적이지만, 이로 인해 최적 정책이 시간 불일치성을 보일 수 있다. 이를 해결하기 위해 마르코프 완전 균형(MPE)이라는 개념이 도입되었으며, 본 연구에서는 MPE를 찾는 최초의 모델 없는 강화 학습 알고리즘을 제안한다.
강화 학습 정책의 안전성을 보장하면서도 해석 가능한 방법인 VERINTER를 제안한다. VERINTER는 모델 검사와 신경망 가지치기를 결합하여 신경망 연결의 안전성에 대한 영향을 정량적으로 분석할 수 있다.
강화 학습 에이전트의 샘플 효율성을 높이고 정책의 설명 가능성을 향상시키기 위해 인간의 직관을 확률적 그래프 모델로 인코딩하여 활용하는 SHIRE 프레임워크를 제안한다.
오프라인 강화 학습에서 마바 의사 결정자(MambaDM)는 전역 및 지역 특징을 효과적으로 통합하여 강화 학습 궤적의 내부 상관관계를 더 잘 이해하고 예측 성능을 향상시킨다.
이 논문은 Q-러닝의 수렴 속도 향상과 과대 추정 편향 문제를 해결하기 위해 이중 연속 과대 이완 Q-러닝 알고리즘을 제안한다. 제안된 알고리즘은 모델 기반이 아닌 모델 프리 방식으로 구현되며, 이론적 및 실험적 분석을 통해 기존 SOR Q-러닝 알고리즘보다 편향이 적음을 보인다. 또한 심층 강화 학습 버전으로 확장하여 대규모 문제에 적용할 수 있음을 보인다.
강화 학습 에이전트는 환경의 특징을 기억하게 되어 개인정보 보호 문제가 발생할 수 있다. 이를 해결하기 위해 강화 학습 망각 기법을 제안한다.
본 논문은 에이전트들이 서로 다른 환경에서 상호작용하는 연합 강화 학습 설정에서 빠른 수렴 속도를 달성하는 새로운 알고리즘 Fast-FedPG를 제안한다. Fast-FedPG는 편향 보정 및 드리프트 완화 메커니즘을 활용하여 전역 최적 정책에 수렴할 수 있음을 보여준다.
암묵적 재매개화 기술을 사용하여 베타 분포를 활용한 소프트 액터-크리틱 알고리즘을 제안하고, 다양한 MuJoCo 환경에서 성능을 평가한다.
실세계 문제에서는 다차원 과제 수행과 미래 가용성에 대한 영향을 균형 잡아야 하며, 환경 내 다른 에이전트와 강화 학습 에이전트 자체에 대한 안전을 보장해야 한다. 본 연구에서는 이를 위해 쌓인 보편적 후계자 특징 근사기(SUSFAS)를 제안하며, 이는 이차 목표에 대한 성능을 향상시키고 안전 제어기와의 상호작용을 개선한다.
이 논문은 평균 보상 반감 마르코프 의사결정 과정에서 사용되는 비동기 확률적 근사 알고리즘의 안정성과 수렴성을 연구한다. 또한 이러한 이론적 결과를 활용하여 새로운 상대 가치 반복 Q-러닝 알고리즘을 제안하고 그 수렴성을 입증한다.