이 논문은 도메인 무작위화(DR)와 지속적 학습(CL)을 결합한 연속적 도메인 무작위화(CDR) 기법을 제안한다. DR은 시뮬레이션 매개변수를 무작위화하여 실제 시스템과의 격차를 줄이는 데 사용되지만, 많은 매개변수를 동시에 무작위화하면 태스크 난이도가 증가하여 최적의 정책을 찾기 어려워질 수 있다. CDR은 이 문제를 해결하기 위해 시뮬레이션에서 매개변수를 순차적으로 무작위화하고 CL을 사용하여 이전 무작위화의 영향을 기억하도록 한다.
CDR은 두 가지 버전으로 구현된다:
실험 결과, CDR 모델은 완전 무작위화 또는 순차적 무작위화 기반 파인튜닝 대비 시뮬레이션-실제 전이 성능이 우수하고 무작위화 순서에 덜 민감하다. 특히 CDR-Oλ가 가장 좋은 성능을 보였다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Josi... lúc arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12193.pdfYêu cầu sâu hơn