核心概念
深層強化学習で訓練された輻輳制御ポリシーを、深層シンボリック回帰を用いて閉形式の数式表現に変換することで、実時間推論と解釈可能性の課題を解決しつつ、元のポリシーの性能と一般化能力を維持する。
要約
本論文は、5Gネットワークにおける輻輳制御の課題に取り組んでいる。パケット化されたフロントホール網では、従来の輻輯制御アルゴリズムでは低遅延と高スループットの要求を満たすことが難しい。そのため、強化学習(RL)ベースの輻輳制御アルゴリズムが注目されている。
RL ポリシーは優れた性能を発揮するが、ニューラルネットワークモデルの実時間推論と解釈可能性の課題がある。本論文では、これらの課題を解決するため、以下の手順を提案している:
- フロントホール網向けに特化したRLベースの輻輳制御ポリシーを訓練する
- そのRLポリシーから状態-行動のデータセットを収集する
- 深層シンボリック回帰を用いて、収集したデータセットから閉形式の数式表現を導出する
導出された閉形式の数式表現は、実時間推論が可能で解釈可能であり、かつRLポリシーの性能と一般化能力を維持することが示されている。
具体的には、以下のような結果が得られている:
- RTT、リンク利用率、公平性の指標において、RLポリシーと同等の性能を発揮
- 訓練時の分布外の状況でも、RLポリシーと同等の一般化能力を示す
- 数式表現の内部動作を分析し、輻輳制御の振る舞いを解釈可能
統計
最小RTTを基準とした送信間隔比が1.0付近では、送信間隔を変更しないことが最適である。
最小RTTに対するRTT比が大きい場合は、送信間隔を増やすことで輻輳を回避できる。
最小RTTに対するRTT比が小さい場合は、送信間隔を積極的に増やすことができる。
引用
"RL モデルは通常、訓練時の分布に似た場面では非常に良い性能を発揮するが、訓練時に見られなかった場面での一般化性能は未解決の課題である。"
"閉形式の数式表現は、実時間推論が可能で解釈可能であり、かつRLポリシーの性能と一般化能力を維持することが示された。"