核心概念
提案手法のゲート付き再帰型スパイキングニューロン(GRSN)は、時系列情報の処理能力を向上させ、部分観測マルコフ決定過程およびマルチエージェント強化学習の性能を従来手法と同等以上に達成できる。
要約
本論文では、スパイキング神経ネットワーク(SNN)を強化学習に適用する際の課題である「時間的ミスマッチ」問題に着目し、これを解決するための新しい手法を提案している。
具体的には以下の2つの提案がなされている:
- 時間的整列パラダイム(TAP)
- SNNの単一ステップの更新を強化学習の単一ステップの決定と整列させることで、時間的ミスマッチを解消する。
- これにより、従来手法と比べて大幅に時間ステップ数を削減できる。
- ゲート付き再帰型スパイキングニューロン(GRSN)
- SNNの時系列情報処理能力を向上させるため、ゲート機構を導入した新しいニューロンモデルを提案。
- 長短期記憶を強化し、部分観測環境やマルチエージェント環境での性能を向上させる。
実験の結果、提案手法であるTAPとGRSNの組み合わせは、従来のRNNベースの手法と同等以上の性能を示しつつ、消費電力を約50%削減できることが示された。これにより、リソース制約下での知的エージェントの実現に貢献できると考えられる。
統計
部分観測制御課題のCartPole-Vにおいて、提案手法のGRSNは平均リターン200.0を達成し、従来手法のMLP(21.6)やRNN(200.0)を大きく上回った。
Pendulum-Pでは、GRSNが-195.8の平均リターンを得て、MLP(-1380.1)やRNN(-203.5)よりも優れた性能を示した。
引用
「提案手法のGRSNは、従来手法と同等以上の性能を示しつつ、消費電力を約50%削減できる」
「GRSNは、部分観測環境やマルチエージェント環境での性能を向上させることができる」