Concepts de base
未知のエージェントとの最適な協力には、公正な報酬推定が必要です。
Stats
我々はKD-BILアルゴリズムを使用して目標パラメータBの事後分布を正確に推定しました。
Citations
"Unbiased reward estimates are sufficient for optimal collaboration."
"STUN agents can efficiently team up with unknown agents and outperform baselines on various SMAC tasks."