Alapfogalmak
새와 유사한 날갯짓 로봇의 민첩하고 견고한 궤적 추적 제어를 위해 모델 없는 강화 학습 기반 프레임워크를 제안하며, 시뮬레이션을 통해 다양한 비행 시나리오에서 복잡한 3D 궤적을 추적하고 민첩한 기동을 수행하며 변화하는 공기역학적 조건에 적응하는 능력을 검증했습니다.
Kivonat
학습 기반 궤적 추적: 새와 유사한 날갯짓 로봇 적용
본 연구는 새와 유사한 날갯짓 로봇(ornithopter)의 민첩하고 견고한 궤적 추적 제어 시스템 개발을 목표로 합니다. 날갯짓 비행의 복잡한 공기역학 및 고도의 비선형 역학으로 인해 기존 제어 방법은 어려움을 겪어 왔습니다. 이 연구에서는 강화 학습(RL)을 활용하여 이러한 문제를 해결하고, 다양한 비행 조건에 적응할 수 있는 보다 다재다능하고 효율적인 제어 전략을 제공합니다.
시뮬레이션 환경 및 로봇 모델
MuJoCo 물리 엔진을 사용하여 날갯짓 로봇의 역학 및 공기역학을 시뮬레이션했습니다.
로봇은 날개짓과 꼬리 움직임을 제어하는 5개의 관절을 갖춘 고자유도(DOF) 시스템으로 모델링되었습니다.
MuJoCo의 타원체 모델을 사용하여 양력 생성에 기여하는 날개 및 꼬리와 같은 양력 몸체의 공기역학적 힘을 계산했습니다.
나머지 몸체는 단순화된 관성 모델을 사용하여 모델링되었습니다.
유체 계수는 로봇의 활공 시 양력 대 항력비와 일치하도록 수동으로 조정되었습니다.
강화 학습 프레임워크
모델 없는 강화 학습 알고리즘인 Proximal Policy Optimization (PPO)을 사용하여 제어 정책을 학습했습니다.
정책은 로봇의 관절 위치를 제어하는 액추에이터 명령을 출력했습니다.
관찰 공간에는 로봇의 방향, 각속도, 관절 모터 위치, 공기에 대한 국부 x 속도 측정값과 같은 센서 데이터가 포함되었습니다.
또한 정책은 향후 궤적 정보를 받아 미래 위치를 예측하고 그에 따라 행동을 조정할 수 있었습니다.
보상 함수는 목표 궤적에 대한 위치 오차를 최소화하고 균형을 유지하며 에너지 효율적인 동작을 장려하도록 설계되었습니다.
커리큘럼 학습 및 도메인 무작위 추출
정책은 (1) 일정한 전진 비행, (2) 다양한 속도의 상승 및 하강, (3) 선회 및 임의 기동의 세 가지 단계로 구성된 커리큘럼 학습 접근 방식을 사용하여 학습되었습니다.
강력하고 일반화 가능한 제어 정책을 학습하기 위해 동적 매개변수(예: 강체 질량, 관성, 질량 중심, 공기역학적 계수, 풍향 및 풍속)에 무작위 추출을 적용했습니다.