損失函數在數據驅動的決策過程中扮演著核心角色。本文對成本敏感型分類和強化學習中不同回歸損失函數的影響進行了全面調查。我們證明了使用二元交叉熵損失的算法可以實現與最優策略成本相關的一階上界,比常用的平方損失更有效率。此外,我們還證明使用最大似然損失的分布式算法可以實現與策略方差相關的二階上界,比一階上界更緊。這特別證明了分布式強化學習的好處。