Kernkonzepte
Zwei verschiedene q-Funktionen sind erforderlich, um kontinuierliche Zeit McKean-Vlasov-Kontrollprobleme zu lernen.
Zusammenfassung
Das Papier untersucht das Q-Lernen in kontinuierlicher Zeit für Mean-Field-Kontrollprobleme und enthüllt die Notwendigkeit von zwei verschiedenen q-Funktionen. Es vergleicht die Definitionen des integrierten q und des wesentlichen q und zeigt ihre Beziehung. Es werden Modelle für die LQ-Steuerung und darüber hinaus betrachtet. Die theoretischen Grundlagen für das kontinuierliche Zeit Q-Lernen werden diskutiert, ebenso wie die Anwendung auf McKean-Vlasov-Kontrollprobleme. Es wird betont, wie die kontinuierliche Zeit robust gegenüber Zeitdiskretisierung ist. Zwei konkrete Finanzanwendungen werden untersucht, um die Leistung der q-Lernalgorithmen zu veranschaulichen.
Struktur:
Einführung in Mean-Field-Kontrollprobleme
Exploratives Lernen in kontinuierlicher Zeit
Zwei q-Funktionen für kontinuierliche Zeit McKean-Vlasov-Kontrolle
Soft Q-Lernen für McKean-Vlasov-Kontrolle
Zwei kontinuierliche Zeit q-Funktionen
Statistiken
Die optimale integrierte q-Funktion wird definiert als ∂J∗/∂t - βJ∗ + Eµ,h[Ht(ξ, µ, ah, ∂µJ∗(ξ), ∂x∂µJ∗(ξ))] + γEξ∼µ[Eh(ξ, µ)].
Die integrierte q-Funktion q(t, µ, h; π) wird definiert als ∂J/∂t - βJ + Eµ,h[Ht(ξ, µ, ah, ∂µJ(ξ), ∂x∂µJ(ξ))] + γEξ∼µ[Eh(ξ, µ)].
Zitate
"Zwei verschiedene q-Funktionen sind generisch erforderlich, um kontinuierliche Zeit McKean-Vlasov-Kontrollprobleme zu lernen."