인간 피드백을 활용한 강화 학습에서 제한된 예산으로 효율적인 학습을 위해 대화 및 교사 선택을 동시에 최적화하는 이중 능동 학습 알고리즘을 제안하고, 이 알고리즘이 보상 추정의 정확성과 정책 학습의 효율성을 향상시키는 데 효과적임을 보여줍니다.