Основные понятия
エッジコンピューティングインフラストラクチャでは、限られた高度に異質なリソースの下で性能を最大化するための新世代の受け入れ制御アルゴリズムが必要とされている。本論文では、制約付きマルコフ決定過程理論に基づいて最適な受け入れ制御ポリシーを導出し、安全な強化学習手法であるDR-CPOを提案する。DR-CPOは報酬の分解を利用して最適な分散制御を実現し、状態空間の爆発を効果的に軽減しつつ最適性を保持する。
Аннотация
本論文では、エッジコンピューティングにおける情報フローの最適な受け入れ制御問題を扱っている。
- 異なるクラスのフローを複数のエッジサーバに割り当てる問題を考える。各サーバには特定のアプリケーションがインストールされており、それぞれのアプリケーションはある特定のフロークラスに興味を持っている。
- 制約付きマルコフ決定過程理論に基づいて最適な受け入れ制御ポリシーを導出する。最適ポリシーは、各サーバで高々1つのランダム化された行動を含むことが示される。
- 報酬の分解に基づく新しい強化学習アルゴリズムDR-CPOを提案する。DR-CPOは最適性を保ちつつ、状態空間の爆発を効果的に軽減する。
- 負荷分散とフロー受け入れ制御を組み合わせた2段階の最適化手順を提案し、システムの性能をさらに向上させる。
- 数値実験の結果、DR-CPOは既存手法と比べて15%高い報酬を達成し、収束に必要な学習エピソードも平均して50%少ないことを示す。
Статистика
サーバiの計算容量は最大Ci個のフローを同時に処理できる。
サーバiへのアクセス容量は最大θi。