核心概念
강화 학습에서 비평 모델의 크기와 규칙화를 조정하면 샘플 효율성을 크게 향상시킬 수 있으며, 이는 특히 복잡한 연속 제어 작업에서 두드러집니다.
要約
BRO: 샘플 효율적인 연속 제어를 위한 새로운 지평
본 연구 논문에서는 심층 강화 학습(RL), 특히 연속 제어 문제에서 샘플 효율성을 향상시키는 새로운 접근 방식인 BRO(Bigger, Regularized, Optimistic) 알고리즘을 소개합니다. 전통적으로 RL 알고리즘 개선에 집중했던 것과 달리, 본 연구는 모델 크기 조정과 규칙화가 샘플 효율성 향상에 상당한 영향을 미칠 수 있음을 실증적으로 보여줍니다.
본 연구의 주요 목표는 연속 제어 작업에서 RL 에이전트의 샘플 효율성을 향상시키는 것입니다. 저자들은 모델 용량 스케일링과 도메인 특정 RL 개선 사항의 상호 작용을 조사하여 기존 방법보다 성능이 뛰어난 새로운 알고리즘인 BRO를 개발했습니다.
저자들은 다양한 크기의 비평 네트워크, 재생 비율, 배치 크기, 정규화 기술 및 탐색 전략을 포함한 광범위한 설계 선택 사항을 실험적으로 평가했습니다. DeepMind Control, MetaWorld 및 MyoSuite 벤치마크에서 40개의 복잡한 연속 제어 작업을 포함하는 포괄적인 작업 세트에서 15,000개 이상의 에이전트를 훈련하여 성능을 평가했습니다.