Concepts de base
본 논문은 다중 충실도 강화 학습 기반의 효율적인 쿼드로터 시간 최적 궤적 재계획 방법을 제안한다. 이 방법은 강화 학습 정책과 보상 추정기를 동시에 학습하여 실시간 적용이 가능한 정확한 동역학 모델과 계획 정책을 개발한다.
Résumé
본 논문은 쿼드로터의 고속 온라인 궤적 계획 문제를 다룬다. 이는 복잡한 비선형 동역학을 정확히 모델링해야 하지만 동시에 계산 자원의 제약을 받는 어려운 과제이다.
제안하는 다중 충실도 강화 학습(MFRL) 방법은 다음과 같은 핵심 내용을 담고 있다:
- 강화 학습 정책과 보상 추정기를 동시에 학습하여 실시간 적용이 가능한 정확한 동역학 모델과 계획 정책을 개발한다.
- 다중 충실도 베이지안 최적화(MFBO)를 활용하여 제한된 고충실도 실험으로도 궤적 실현 가능성 경계면을 효과적으로 모델링한다.
- 실제 비행 실험 데이터를 강화 학습 훈련에 포함하여 실제 환경의 제약 조건을 정확히 반영하고 실제 시나리오에 적용 가능한 정책을 학습한다.
제안 방법의 성능 평가 결과, 기존 최소 스냅 방법 대비 최대 25% 빠른 궤적을 생성하며, 평균 4.7% 시간 단축을 달성한다. 또한 계산 시간이 2ms로 매우 빠르다.
Stats
제안 방법의 출력 궤적은 기존 최소 스냅 방법 대비 최대 25% 빠르며, 평균 4.7% 시간이 단축된다.
제안 방법의 궤적 생성 계산 시간은 평균 2ms로 매우 빠르다.
Citations
"본 논문은 다중 충실도 강화 학습 기반의 효율적인 쿼드로터 시간 최적 궤적 재계획 방법을 제안한다."
"제안하는 MFRL 방법은 강화 학습 정책과 보상 추정기를 동시에 학습하여 실시간 적용이 가능한 정확한 동역학 모델과 계획 정책을 개발한다."
"제안 방법의 출력 궤적은 기존 최소 스냅 방법 대비 최대 25% 빠르며, 평균 4.7% 시간이 단축된다."