본 논문은 다중 홉 무선 네트워크에서 M개의 통계적으로 동일한 에이전트들이 자동 회귀 마르코프 프로세스를 실시간으로 샘플링하고 추정하는 문제를 다룹니다.
각 에이전트는 매 타임슬롯마다 다음을 결정합니다:
목표는 추정 오차와 정보 신선도(AoI)를 최소화하는 분산 가능한 샘플링 및 전송 정책을 설계하는 것입니다.
정책은 두 가지 유형으로 구분됩니다:
무관심 정책의 경우, 추정 오차 최소화가 AoI 최소화와 동등함을 증명합니다.
복잡한 네트워크 토폴로지와 고차원 행동 공간으로 인해 이론적 방법으로는 최적 전송 정책을 찾기 어려워, 그래프 신경망 기반의 다중 에이전트 강화학습 프레임워크를 제안합니다.
제안하는 프레임워크는 에이전트 수에 무관한 파라미터 수를 가지며, 작은 네트워크에서 학습된 정책을 대규모 네트워크에 효과적으로 적용할 수 있는 전이성 특성을 가집니다.
독립 학습(IPPO)과 중앙집중 학습-분산 실행(MAPPO) 두 가지 강화학습 기법을 활용하여 제안 프레임워크를 구현하고, 다양한 실험을 통해 성능 및 특성을 검증합니다.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Xingran Chen... ב- arxiv.org 04-05-2024
https://arxiv.org/pdf/2404.03227.pdfשאלות מעמיקות