Die Arbeit untersucht die Eigenschaften des Stochastischen Gradientenabstiegs (SGD) im Rahmen stochastischer Rekursionsgleichungen. Dabei werden folgende Aspekte betrachtet:
Schwanzverhalten der stationären Lösung: Es wird gezeigt, dass die stationäre Lösung R schwere Schwänze aufweist, d.h. die Verteilung von R fällt polynomiell ab. Der genaue Exponent des Potenzgesetzes hängt von den Parametern des Modells ab.
Verhalten endlicher Iterationen: Es wird bewiesen, dass der Erwartungswert von |Rn|α linear in n wächst. Dies verbessert frühere Resultate, die nur eine obere Schranke für dieses Wachstum lieferten.
Abhängigkeit des Schwanzindex von den Modellparametern: Unter der Annahme rotationsinvarianter Verteilungen wird eine einfache Formel für den Schwanzindex α hergeleitet. Es wird gezeigt, dass α eine streng monotone Funktion des Schrittgrößenparameters η und der Batch-Größe b ist.
Überprüfung der Annahmen: Für das Modell mit normalverteilten Eingangsvektoren wird nachgewiesen, dass die benötigten Annahmen erfüllt sind.
Die Ergebnisse liefern ein detailliertes Verständnis der Schwanzverteilung des SGD-Algorithmus und dessen Abhängigkeit von den Modellparametern.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Ewa Damek,Se... pada arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.13868.pdfPertanyaan yang Lebih Dalam