本研究は、深層強化学習における探索とexploitation のバランスを改善するための新しい手法を提案している。具体的には、状態の新規性に基づいてアクションの持続性を動的に調整することで、以下のような効果を実現する:
初期段階では大きなアクション持続性を用いることで、時間的に持続的な探索を促進する。これにより、状態空間の広範な探索が可能となる。
学習が進むにつれて、アクション持続性を徐々に小さくすることで、より細かな制御を可能にする最適な政策を得ることができる。
追加の価値関数や方策の学習を必要とせず、シンプルかつ効率的に実装できる。
基本的な探索戦略(ε-greedy、エントロピー正則化、ノイジーネット)にも適用可能で、それらの性能を向上させることができる。
提案手法は、DMControl ベンチマークの様々なタスクで検証され、サンプル効率の大幅な改善を示している。状態の新規性を適切に捉えることで、探索とexploitationのバランスを効果的に取ることができることが実証された。
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Jianshu Hu, ... um arxiv.org 09-10-2024
https://arxiv.org/pdf/2409.05433.pdfTiefere Fragen