본 논문에서는 기존 SARSA 알고리즘의 단일 할인 계수 제한을 극복하기 위해 시간 척도에 따라 행동 가치 함수를 분할하는 새로운 접근 방식인 SARSA(Δ)를 제안합니다.
본 논문에서는 공간 효율성이 낮은 LSVI-UCB 알고리즘의 문제점을 개선하기 위해 학습 단계를 조절하는 두 가지 변형 알고리즘(LSVI-UCB-Fixed, LSVI-UCB-Adaptive)을 제안하고, 이들이 기존 알고리즘에 비해 공간 및 시간 효율성을 높이면서도 낮은 후회도를 유지하는 것을 이론적 분석과 실험을 통해 입증한다.
본 논문에서는 미생물 공배양에서 여러 개체군의 설정점을 효과적으로 추적하기 위해 새로운 보상 함수를 사용한 정책 경사 강화 학습 제어 방법을 제안합니다.
본 논문에서는 기존의 평균-분산 강화 학습 방법의 계산적 어려움을 해결하기 위해 기대 이차 효용 함수를 활용한 새로운 접근 방식을 제안하고, 이를 통해 효율적인 금융 투자 전략을 학습하는 방법을 제시합니다.
본 논문에서는 다양한 물리적 특성을 가진 물체를 정확하게 밀기 위해 메모리 기반 비전-고유수용성 강화 학습 모델을 제안하며, 이는 기존 모델 대비 수정 동작을 줄이고 실제 환경에서의 성능을 향상시킵니다.
본 논문에서는 마르코프 결정 프로세스(MDP)를 더 작고 독립적으로 진화하는 MDP로 근사적으로 분해하는 방법을 제안하여 고차원 상태 및 행동 공간에서 샘플 효율성이 높은 강화 학습 알고리즘을 개발합니다.
본 논문에서는 자율 운송, 특히 내륙 수로 운송(IWT)에서 모델 기반 및 모델 프리 강화 학습(RL) 알고리즘의 강건성을 비교 분석하여 복잡하고 예측 불가능한 환경에서 자율 주행 시스템의 안전성과 신뢰성을 향상시키는 데 기여하고자 합니다.
본 논문에서는 동적 프로그래밍을 정책 경사 방법과 직접 통합하여 MDP의 마르코프 속성을 효과적으로 활용하는 DynPG(Dynamic Policy Gradient)라는 새로운 프레임워크를 제안합니다. DynPG는 훈련 중 문제의 지평을 동적으로 조정하여 기존의 무한 지평 MDP를 일련의 문맥적 밴딧 문제로 분해합니다. 이러한 문맥적 밴딧을 반복적으로 해결함으로써 DynPG는 무한 지평 MDP의 고정 최적 정책으로 수렴합니다.
본 논문에서는 연속적인 행동 공간에서 작업 수행에 무관한 행동을 제외함으로써 강화 학습의 효율성을 향상시키는 방법을 제시합니다.
본 논문에서는 다항 로짓 함수 근사를 사용하여 상태 공간에 대한 유효한 확률 분포를 보장하는 새로운 MDP 클래스를 연구하여, 기존 연구의 계산 및 통계적 비효율성 문제를 해결하는 두 가지 알고리즘, UCRL-MNL-OL과 UCRL-MNL-LL을 제시하고, 이들의 효율성과 성능 향상을 이론적 및 실험적으로 검증합니다.