核心概念
Tsallis entropy regularization is utilized in optimal control to balance exploration and sparsity effectively.
摘要
この論文では、Tsallisエントロピー正則化を使用して、線形的に解けるMDPと線形二次レギュレーターの最適制御問題を取り上げています。Shannonエントロピー正則化が探索とスパース性のバランスを促進する能力を持つため、広く採用されています。TsallisエントロピーはShannonエントロピーの一般化であり、探索と制御法のスパース性の間のバランスを示すために使用されます。具体的な数値例を通じて、TROCアプローチが高いエントロピーとスパース性を実現することが示されました。
引用
"Soft Actor-Critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor." - T. Haarnoja, A. Zhou, P. Abbeel, and S. Levine
"Maximum entropy RL (provably) solves some robust RL problems." - B. Eysenbach and S. Levine
"Sparse markov decision processes with causal sparse Tsallis entropy regularization for reinforcement learning." - K. Lee, S. Choi, and S. Oh