EXP 기반 알고리즘은 보상이 제한된 비확률적 밴딧 문제에서 탐험을 위해 자주 사용됩니다. 우리는 EXP4를 수정하여 새로운 알고리즘 EXP4.P를 제안하고, 제한된 및 무제한 하위 가우시안 컨텍스트 밴딧 환경에서의 후회 한계를 확립합니다. 무제한 보상 결과는 수정된 EXP3.P 버전에도 적용됩니다. 또한 우리는 단기 시간 범위에서는 선형 후회가 달성될 수 없음을 시사하는 후회 한계 하한을 제공합니다. 모든 분석은 고전적인 것과 달리 제한된 보상을 요구하지 않습니다. 또한 우리는 EXP4.P를 컨텍스트 밴딧에서 강화학습으로 확장하여 블랙박스 보상에 대한 다중 에이전트의 탐험을 장려합니다. 결과 알고리즘은 탐험이 어려운 게임에서 테스트되었으며 최신 기술에 비해 탐험 성능이 향상되었습니다.
적대적 마르코프 의사결정 프로세스에서 비관적 후회 분석의 한계를 극복하기 위해, 비용 예측기를 활용하여 낙관적 후회 한계를 달성하는 새로운 정책 탐색 방법을 제안한다.
정책 경사 기법을 통해 확률적 정책을 학습하고, 이를 바탕으로 결정론적 정책을 구현하는 방법에 대한 이론적 분석을 제공한다.
강화학습 에이전트의 행동을 인간의 선호도나 사회적 가치와 잘 정렬시키는 것이 중요한 과제이다. 이를 위해 본 연구에서는 정책 정렬 문제를 상위 수준(reward 설계)과 하위 수준(정책 최적화)의 양방향 최적화 문제로 정식화한 PARL 프레임워크를 제안한다.
적응적으로 수집된 데이터를 활용하여 강화학습 정책의 가치를 효과적으로 평가할 수 있는 이론적 보장을 제공한다.
이 논문은 보상 없는 강화학습, PAC 강화학습, 모델 추정, 선호도 기반 학습 등 다양한 강화학습 목표를 단일 통합 알고리즘 프레임워크로 다룬다. 이를 통해 각 목표에 대한 통계적 복잡도를 일반화된 의사결정-추정 계수(G-DEC)로 특성화하고, 이에 기반한 일반화된 E2D 알고리즘을 제안한다.
강화학습 알고리즘을 사용하여 실험 없이도 난류 환경에서 냄새 자극만으로 목표물을 효과적으로 찾을 수 있다.
강화학습(RL)은 다양한 실세계 시나리오에서 여전히 제한적인 실용성을 가지고 있다. 이는 데이터 효율성 부족, 일반화 능력 제한, 안전 보장 부재, 해석 가능성 부족 등의 문제에서 비롯된다. 이러한 문제를 해결하고 성능을 향상시키기 위한 한 가지 유망한 방법은 학습 과정에 문제에 대한 추가적인 구조 정보를 포함시키는 것이다. 본 논문에서는 이러한 다양한 방법론을 통합적인 틀 아래 정리하고, 구조가 학습 문제에 미치는 역할을 조명하며, 구조를 포함시키는 다양한 패턴을 분류한다. 이를 통해 구조화된 RL의 과제에 대한 통찰을 제공하고, RL 연구에 대한 설계 패턴 관점의 기반을 마련한다.
이 논문은 연속 행동 공간에서 Q-러닝의 "max-Q 문제"를 새로운 방식으로 해결하는 AFU라는 오프-정책 심층 강화학습 알고리즘을 제안한다. AFU는 액터가 있지만 크리틱 업데이트는 액터와 완전히 독립적이다.
데이터 부족 문제를 해결하기 위해 기존 사업에서 얻은 대량의 데이터를 활용하여 새로운 사업에서 고차원 특징 공간을 탐색하고 의사결정을 개선할 수 있다.