本研究では、構造情報原理に基づく新しい意思決定フレームワークSIDMを提案した。SIDMは以下の3つの主要な機能を有する:
状態と行動の階層的抽象化: 状態グラフと行動グラフを構築し、構造エントロピーを最小化することで、状態と行動を階層的に抽象化する。これにより、元の意思決定プロセスの本質的な情報を保持しつつ、不要な詳細を排除する。
ディレクテッドグラフを用いたスキル同定: 抽象状態遷移を表すディレクテッドグラフを構築し、その構造エントロピーを最適化することで、各遷移の発生確率を計算する。これにより、専門知識に依存しない適応的なスキルベース学習メカニズムを実現する。
単一エージェントおよび多エージェントの強化学習への統合: 提案するSIDMフレームワークは、様々な単一エージェントおよび多エージェントの強化学習アルゴリズムに柔軟に統合でき、それらの性能を大幅に向上させる。
実験的評価では、視覚的グリッドワールド、DMControl連続制御タスク、ロボット制御、StarCraft IIマイクロマネージメントなどの課題において、SIDMが既存の最先端手法と比べて、最大32.70%の政策品質向上、88.26%の安定性向上、64.86%のサンプル効率向上を達成することを示した。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Xianghua Zen... at arxiv.org 04-16-2024
https://arxiv.org/pdf/2404.09760.pdfDeeper Inquiries