核心概念
本文研究了成本函數中具有熵正則化的倒向隨機控制系統的最優探測控制,並推導了最優鬆弛控制的必要和充分條件,為此類系統在數學金融和算法實現中的應用奠定了理論基礎。
本論文研究了一種成本函數中具有熵正則化的倒向隨機控制系統。與確定性系統不同,隨機系統存在多條路徑,而正向隨機系統和倒向隨機系統之間也存在顯著差異。倒向隨機微分方程(BSDE)在隨機分析和隨機控制的許多問題中扮演著重要角色,例如非線性偏微分方程的概率解釋、隨機微分效用以及拋物型隨機偏微分方程的平穩解構造等。
本文研究的倒向隨機控制系統的狀態方程是一個受控 BSDE,其成本函數中包含熵正則化項。熵正則化的引入受到機器學習中信息熵和強化學習中探索與利用思想的啟發,旨在設計一種逼近最優控制的算法。
建立了隨機最大值原理: 利用凸變分方法,推導了具有熵正則化的倒向隨機控制系統的隨機最大值原理,為尋找最優控制提供了必要條件。
證明了最優控制的充分條件: 給出了最優鬆弛控制的充分條件,並討論了最優控制的隱式形式。
證明了線性二次問題最優控制的存在唯一性: 對於具有熵正則化的倒向線性二次控制問題,利用解耦技術證明了最優控制的存在唯一性,並給出了最優控制的顯式形式。