핵심 개념
本稿では、マルチエージェント強化学習におけるクレジット割り当て問題に取り組み、部分報酬デカップリング(PRD)を用いた新しいアルゴリズムであるPRD-MAPPOを提案する。PRD-MAPPOは、エージェントの学習における無関係なエージェントからの影響を排除することで、従来のMAPPOよりも学習効率と安定性を大幅に向上させる。
초록
マルチエージェント強化学習における部分報酬デカップリングを用いた貢献度割り当て
Kapoor, A., Freed, B., Schneider, J., & Choset, H. (2024). Assigning Credit with Partial Reward Decoupling in Multi-Agent Proximal Policy Optimization. In Proceedings of the Robotics Learning Conference (RLC 2024).
本論文では、マルチエージェント強化学習(MARL)におけるクレジット割り当て問題、特にエージェントの数が増加するにつれて個々のエージェントの貢献を評価することが困難になる問題に取り組むことを目的とする。