본 논문은 강화 학습 기법 중 하나인 Proximal Policy Optimization (PPO)를 활용하여 쿼드콥터 제어기의 게인을 실시간으로 최적화하는 기법을 제안한다.
먼저, 쿼드콥터의 2차원 동역학 모델을 기반으로 한 시뮬레이션 환경을 구축하였다. 이 환경에서 에이전트는 사전 생성된 궤적을 추종하도록 설계된 캐스케이드 PD 제어기와 상호작용한다. PPO 알고리즘을 통해 에이전트는 제어기의 비례 게인을 실시간으로 최적화하는 정책을 학습한다.
학습 과정에서 에이전트의 성능은 궤적 추종 오차(ISE, ITSE)를 통해 평가되며, 수동 튜닝된 고정 게인 제어기와 비교된다. 실험 결과, 제안된 적응형 게인 제어기는 고정 게인 제어기 대비 약 40% 이상의 성능 향상을 보였다. 이를 통해 강화 학습 기반 게인 스케줄링이 쿼드콥터 제어 성능 향상에 효과적임을 확인하였다.
향후 연구에서는 6자유도 쿼드콥터로 확장하고, 안정성 분석 등 실제 구현을 위한 추가 연구가 필요할 것으로 보인다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询