본 논문은 다중 충실도 강화 학습 기반의 효율적인 쿼드로터 시간 최적 궤적 재계획 방법을 제안한다. 이 방법은 강화 학습 정책과 보상 추정기를 동시에 학습하여 실시간 적용이 가능한 정확한 동역학 모델과 계획 정책을 개발한다.