이 논문은 강화 학습 알고리즘에 탄력적 시간 단계를 도입하여 계산 자원 사용과 과제 완수 시간을 최소화하는 방법을 제안한다. 기존 강화 학습 알고리즘은 고정된 제어 주기를 사용하지만, 이는 상황에 따라 비효율적일 수 있다. 제안하는 Soft Elastic Actor-Critic (SEAC) 알고리즘은 행동과 함께 행동 지속 시간을 출력하여 동적으로 제어 주기를 조절한다.
실험 결과, SEAC는 기존 Soft Actor-Critic (SAC) 알고리즘에 비해 에너지 효율성과 전체 시간 관리 면에서 우수한 성능을 보였다. 또한 제어 주기를 설정할 필요가 없어 실용성이 높다. SEAC는 SAC보다 더 빠르고 안정적인 학습 속도를 보였으며, 특히 SAC가 수렴하기 어려운 제어 주기에서 이러한 장점이 두드러졌다. SEAC와 유사한 접근법인 Continuous-Time Continuous-Options (CTCO) 모델과 비교했을 때에도 SEAC가 과제 수행 성능이 더 우수했다. 이러한 결과는 SEAC가 실제 로봇 응용 분야에서 실용적으로 활용될 수 있음을 시사한다.
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Dong Wang,Gi... lúc arxiv.org 04-03-2024
https://arxiv.org/pdf/2402.14961.pdfYêu cầu sâu hơn