Die Arbeit untersucht die Auswirkungen von Zeitverzögerungen und Markov-Abtastung auf die Konvergenz von stochastischen Approximationsverfahren.
Zunächst analysieren die Autoren den Fall konstanter Verzögerungen. Sie zeigen, dass der zeitverzögerte stochastische Approximationsalgorithmus eine exponentielle Konvergenz zu einer Kugel um den Fixpunkt des stochastischen Approximationsoperators garantiert, wobei die Konvergenzrate vom Maximum aus Verzögerungswert τ und Mischzeit τmix abhängt. Die Autoren argumentieren, dass diese Abhängigkeit von τ optimal ist.
Anschließend betrachten sie den Fall zeitvariabler, aber beschränkter Verzögerungen. Hier entwickeln die Autoren eine neuartige induktive Beweistechnik, um eine Konvergenzrate zu etablieren, die vom Maximum aus maximaler Verzögerung τmax und Mischzeit τmix abhängt. Diese Technik unterscheidet sich von bisherigen Ansätzen in der Optimierung und Reinforcement-Learning-Literatur.
Darüber hinaus präsentieren die Autoren einen verzögerungsadaptiven stochastischen Approximationsalgorithmus, dessen Konvergenzrate nur vom durchschnittlichen Verzögerungswert τavg abhängt und keine Kenntnis der Verzögerungssequenz erfordert. Dies stellt eine weitere Verbesserung gegenüber dem Standardalgorithmus dar.
Die Ergebnisse der Arbeit haben Anwendungen in verschiedenen Bereichen wie Temporal-Difference-Lernen, Q-Lernen und stochastischem Gradientenabstieg unter Markov-Abtastung.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Arman Adibi,... pada arxiv.org 03-27-2024
https://arxiv.org/pdf/2402.11800.pdfPertanyaan yang Lebih Dalam