核心概念
지속적 강화 학습을 통해 새로운 무선 네트워크 사이트에 대한 셀 수준 매개변수 구성 정책을 데이터 효율적으로 학습할 수 있다.
要約
이 논문은 무선 네트워크 매개변수 최적화를 위한 지속적 강화 학습 방법을 제안한다. 기존의 접근법은 새로운 네트워크 사이트에 대해 매개변수 구성을 최적화하는 데 많은 시간이 소요되었다. 제안된 방법은 이전에 학습한 지식을 활용하여 새로운 매개변수 집합을 효율적으로 학습할 수 있다. 실험 결과, 제안 방법은 기존 방법 대비 2배 빠른 배포 시간을 달성하면서도 최적화 성능 저하 없이 작동한다. 핵심 기술적 솔루션은 다음과 같다:
- 모델 기반 강화 학습을 통해 실제 무선 네트워크 실험의 데이터 제한 문제를 해결했다.
- 지속적 강화 학습을 통해 새로운 매개변수 집합에 대한 정책 배포 시간 제약 문제를 해결했다.
- 확률적 보상 모델을 통해 목표 KPI의 높은 노이즈 수준 문제를 해결했다.
- 학습 기반 솔루션을 통해 20,000개 셀에 대한 5분 이내 추론 시간 제약 문제를 해결했다.
統計
실험 결과, 제안 방법은 기존 방법 대비 최대 4%의 처리량 향상을 달성했다.
제안 방법은 기존 방법 대비 약 31% 적은 메모리 사용량과 약 43% 빠른 학습 시간을 보였다.
引用
"제안된 방법은 이전에 학습한 지식을 활용하여 새로운 매개변수 집합을 효율적으로 학습할 수 있다."
"실험 결과, 제안 방법은 기존 방법 대비 2배 빠른 배포 시간을 달성하면서도 최적화 성능 저하 없이 작동한다."