이 논문은 보상 없는 강화학습, PAC 강화학습, 모델 추정, 선호도 기반 학습 등 다양한 강화학습 목표를 단일 통합 알고리즘 프레임워크로 다룬다. 이를 통해 각 목표에 대한 통계적 복잡도를 일반화된 의사결정-추정 계수(G-DEC)로 특성화하고, 이에 기반한 일반화된 E2D 알고리즘을 제안한다.