이 연구는 우주 로봇 시스템의 자율적 핀-홀 조립 능력 향상을 위한 새로운 접근법을 제안한다. 핵심은 절차적 생성과 도메인 무작위화를 통해 강화 학습 에이전트의 일반화 및 적응성을 높이는 것이다.
절차적 생성을 통해 다양한 핀-홀 모듈을 생성하고, 이를 고도로 병렬화된 시뮬레이션 환경에 통합하여 에이전트가 광범위한 조립 시나리오에 걸쳐 경험을 효율적으로 수집할 수 있도록 한다. 또한 도메인 무작위화 기법을 적용하여 에이전트의 강건성과 일반화 능력을 향상시킨다.
이 프레임워크를 통해 3가지 서로 다른 강화 학습 알고리즘(PPO, SAC, DreamerV3)을 사용하여 에이전트를 학습 및 평가한다. 특히 시간적 의존성이 과제 학습에 미치는 영향을 조사한다.
실험 결과, DreamerV3 에이전트가 가장 뛰어난 일반화 성능을 보였으며, 새로운 조립 시퀀스에서도 높은 성공률을 달성했다. 이는 절차적 생성과 도메인 무작위화가 우주 로봇 시스템의 적응성 향상에 기여할 수 있음을 시사한다.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies