Core Concepts
限られたデータと環境との相互作用の中で、学習の高速化と安定化を両立する新しい手法を提案する。
Abstract
本研究では、スパイキング型ニューラルネットワークにおける強化学習の課題に取り組む。特に、限られたデータと環境との相互作用の中で、学習の高速化と安定化を両立することが重要な課題となる。
提案手法では、2つのネットワークを用いて学習を行う。一方のネットワークは環境と相互作用し、安定したポリシーを維持する。もう一方のネットワークは新しい経験に基づいて迅速に更新を行う。この2つのネットワークを異なる時間スケールで更新することで、データ効率的な学習と安定した学習を両立する。
さらに、経験の再利用時にも、ポリシーの発散を抑制する仕組みを導入している。これにより、経験の再利用を通じて学習の効率を高めつつ、学習の安定性を維持することができる。
提案手法は、Atariゲームの課題において、既存の生物学的に妥当な強化学習手法であるe-propを上回る性能を示した。このことから、本手法が神経形態学的ハードウェアや実世界応用に向けて有効であることが示唆される。
Stats
限られた環境との相互作用の中で、効率的な学習を行うことが重要な課題である。
スパイキング型ニューラルネットワークでは、スパイクによる固有のノイズが学習の難しさを増大させる。
生涯学習システムにおいては、可塑性と安定性のジレンマを解決することが不可欠である。
Quotes
生涯学習システムにおいては、新しい知識の獲得と安定性の維持のバランスを取ることが重要である。
経験の再利用時にも、ポリシーの発散を抑制する仕組みが必要である。
提案手法は、神経形態学的ハードウェアや実世界応用に向けて有効であると考えられる。