본 논문에서는 자율 운송, 특히 내륙 수로 운송(IWT)에서 모델 기반 및 모델 프리 강화 학습(RL) 알고리즘의 강건성을 비교 분석하여 복잡하고 예측 불가능한 환경에서 자율 주행 시스템의 안전성과 신뢰성을 향상시키는 데 기여하고자 합니다.
본 논문에서는 동적 프로그래밍을 정책 경사 방법과 직접 통합하여 MDP의 마르코프 속성을 효과적으로 활용하는 DynPG(Dynamic Policy Gradient)라는 새로운 프레임워크를 제안합니다. DynPG는 훈련 중 문제의 지평을 동적으로 조정하여 기존의 무한 지평 MDP를 일련의 문맥적 밴딧 문제로 분해합니다. 이러한 문맥적 밴딧을 반복적으로 해결함으로써 DynPG는 무한 지평 MDP의 고정 최적 정책으로 수렴합니다.
본 논문에서는 연속적인 행동 공간에서 작업 수행에 무관한 행동을 제외함으로써 강화 학습의 효율성을 향상시키는 방법을 제시합니다.
본 논문에서는 다항 로짓 함수 근사를 사용하여 상태 공간에 대한 유효한 확률 분포를 보장하는 새로운 MDP 클래스를 연구하여, 기존 연구의 계산 및 통계적 비효율성 문제를 해결하는 두 가지 알고리즘, UCRL-MNL-OL과 UCRL-MNL-LL을 제시하고, 이들의 효율성과 성능 향상을 이론적 및 실험적으로 검증합니다.
본 논문에서는 알려지지 않은 전이와 적대적 보상을 가진 에피소드 방식의 선형 혼합 MDP에 대한 준 최적 동적 후회를 달성하는 새로운 알고리즘 OOPE를 제안합니다.
본 논문에서는 새로운 다단계 계층적 강화 학습 방법인 FraCOs(Fracture Cluster Options)를 소개하며, 이는 에ージェ 트의 행동 패턴을 분석하여 재사용 가능한 옵션을 생성함으로써 새로운 작업에 대한 일반화 능력을 향상시킵니다.
본 논문에서는 무한한 시간적 제약 조건에서 연속 시간 선형-이차 평균장 제어 문제를 해결하기 위해 정책 반복 강화 학습 방법을 제시합니다. 이 방법은 결합된 리카티 방정식을 직접 푸는 대신, 보 auxiliary 함수와 비용 함수를 강화하여 최적 제어를 계산하는 새로운 접근 방식을 제시합니다.
본 논문에서는 에이전트가 다양한 기술을 더 빠르게 학습할 수 있도록 차별성 기반 강화 학습에서 관찰된 학습 진척도를 기반으로 목표 선택 정책을 학습하는 새로운 방법인 다양성 진척도(DP)를 제안합니다.
본 논문에서는 시간적 순서 제약이 있는 숨겨진 하위 목표를 학습하기 위한 새로운 강화 학습 프레임워크인 LSTOC를 제안합니다. LSTOC는 새로운 대조 학습 목표와 샘플 효율적인 학습 전략을 사용하여 숨겨진 하위 목표를 효과적으로 학습하고 작업 해결을 가속화합니다.
본 논문에서는 광범위 형태 게임(EFG)에서 샘플 효율성을 개선하고 기존 이중 오라클(DO) 방법의 계산 복잡성 문제를 해결하는 새로운 알고리즘인 AdaDO를 제안합니다. AdaDO는 적응형 주기 함수를 사용하여 제한 게임의 크기에 따라 최적의 베스트 리스폰스 계산 빈도를 동적으로 조정합니다. 이를 통해 AdaDO는 기존 DO 방법보다 샘플 복잡도를 줄이고, 더 빠르게 Nash Equilibrium에 근접한 전략을 찾아냅니다.