이 논문은 무선 자원 관리(RRM) 문제를 해결하기 위해 오프라인 및 분포 강화 학습 기법을 제안한다. 온라인 강화 학습은 실제 환경과의 상호작용이 필요하지만, 실제 환경에서는 이러한 상호작용이 어려울 수 있다. 또한 전통적인 강화 학습은 실세계의 불확실성과 위험을 고려하지 않는다는 한계가 있다.
제안하는 기법은 정적 데이터셋을 이용한 오프라인 학습과 수익 분포를 고려하는 분포 강화 학습을 결합한다. 시뮬레이션 결과, 제안 기법은 기존 자원 관리 모델들을 능가하며, 온라인 강화 학습 기법보다 16% 향상된 성능을 달성한다.
구체적으로, 제안 기법은 다음과 같은 과정으로 구성된다:
시뮬레이션 결과, CQR 알고리즘이 다른 오프라인/분포 강화 학습 기법들을 능가하며, 온라인 강화 학습 기법보다도 우수한 성능을 보인다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询