핵심 개념
다양한 로봇 시스템에 적 adaptable하며 시뮬레이션 데이터와 온라인 데이터를 활용하여 새로운 환경에 빠르게 적응하는 온라인 컨트롤러 적응 프레임워크를 제시합니다.
초록
OCCAM: 메타 학습 모델을 사용한 온라인 연속 컨트롤러 적응
본 논문에서는 다양한 로봇 시스템에 적용 가능하며, 새로운 환경에 빠르게 적응하는 온라인 컨트롤러 적응 프레임워크인 OCCAM을 제시합니다. OCCAM은 시뮬레이션 데이터와 로봇으로부터 온라인으로 수집된 데이터를 결합하여 컨트롤러를 지속적으로 조정합니다.
문제 제기
로봇 제어 시스템은 다양한 환경 변화에 적응하기 위해 컨트롤러 매개변수 조정이 필수적입니다. 그러나 최적의 매개변수 값은 일반적으로 사전에 알 수 없으며 계산하기도 쉽지 않습니다. 기존의 수동 튜닝 방식은 시간이 많이 소요되고, 도메인 전문 지식이 필요하며, 새로운 환경에 대한 일반화 능력이 제한적입니다.
해결 방안
OCCAM은 메타 학습과 베이지안 재귀 추정을 결합하여 시스템 성능에 대한 사전 예측 모델을 학습합니다. 이 모델은 온라인 작동 중에 수집된 데이터에 빠르게 적응하며, 상당한 도메인 변화가 있는 경우에도 효과적으로 작동합니다.
주요 특징
메타 학습 기반 예측 모델: 시뮬레이션 데이터를 사용하여 컨트롤러 성능에 대한 사전 예측 모델을 학습합니다. 메타 학습을 통해 모델은 새로운 환경에서 수집된 데이터에 빠르게 적응할 수 있습니다.
베이지안 재귀 추정: 온라인으로 수집된 데이터를 사용하여 예측 모델을 지속적으로 업데이트합니다. 베이지안 프레임워크를 통해 모델의 불확실성을 명시적으로 고려합니다.
효율적인 샘플링 기반 최적화: 업데이트된 예측 모델을 사용하여 시스템 성능을 최대화하는 새로운 컨트롤러 매개변수를 찾습니다. 샘플링 기반 접근 방식을 통해 비선형 및 비미분 가능한 컨트롤러에도 적용 가능합니다.
실험 결과
OCCAM은 시뮬레이션된 경주용 자동차, 시뮬레이션 및 실제 쿼드로터, 시뮬레이션된 4족 보 로봇 등 다양한 로봇 시스템에서 평가되었습니다. 실험 결과, OCCAM은 기존의 방법들보다 성능이 뛰어나며, 새로운 환경에 빠르게 적응하는 것으로 나타났습니다.