Conceitos essenciais
損失函數在數據驅動的決策過程中扮演著核心角色。本文對成本敏感型分類和強化學習中不同回歸損失函數的影響進行了全面調查。我們證明了使用二元交叉熵損失的算法可以實現與最優策略成本相關的一階上界,比常用的平方損失更有效率。此外,我們還證明使用最大似然損失的分布式算法可以實現與策略方差相關的二階上界,比一階上界更緊。這特別證明了分布式強化學習的好處。
Resumo
本文闡述了損失函數在數據驅動決策中的核心作用,並對成本敏感型分類(CSC)和強化學習(RL)中不同回歸損失函數的影響進行了全面調查。
在CSC部分:
- 使用平方損失回歸無法實現一階上界,因為它無法適應上下文相關的方差。
- 使用二元交叉熵損失可以實現一階上界,其收斂速度與最優策略成本相關。
- 使用最大似然估計(MLE)損失可以實現二階上界,其收斂速度與策略方差相關,比一階上界更緊。
在RL部分:
- 相比CSC,RL面臨的新挑戰是只有選擇的動作才有反饋(部分反饋),以及需要在多個時間步長內與環境交互。
- 仍然關注基於值的算法和函數逼近,證明了在高維觀測空間下的上界。
- 不同損失函數在RL中的表現與CSC類似:平方損失無法適應小成本或小方差的情況,而二元交叉熵損失和MLE損失可以。
Estatísticas
最優策略的成本V⋆通常很小時,使用平方損失的算法的決策後悔率為Θ(1/√n)。
使用二元交叉熵損失的算法的決策後悔率為O(1/n)。
使用最大似然估計損失的算法的決策後悔率為O(1/n)。