核心概念
未知のエージェントとの最適な協力には、公正な報酬推定が必要です。
統計
我々はKD-BILアルゴリズムを使用して目標パラメータBの事後分布を正確に推定しました。
引用
"Unbiased reward estimates are sufficient for optimal collaboration."
"STUN agents can efficiently team up with unknown agents and outperform baselines on various SMAC tasks."