Die Arbeit untersucht die Eigenschaften des Stochastischen Gradientenabstiegs (SGD) im Rahmen stochastischer Rekursionsgleichungen. Dabei werden folgende Aspekte betrachtet:
Schwanzverhalten der stationären Lösung: Es wird gezeigt, dass die stationäre Lösung R schwere Schwänze aufweist, d.h. die Verteilung von R fällt polynomiell ab. Der genaue Exponent des Potenzgesetzes hängt von den Parametern des Modells ab.
Verhalten endlicher Iterationen: Es wird bewiesen, dass der Erwartungswert von |Rn|α linear in n wächst. Dies verbessert frühere Resultate, die nur eine obere Schranke für dieses Wachstum lieferten.
Abhängigkeit des Schwanzindex von den Modellparametern: Unter der Annahme rotationsinvarianter Verteilungen wird eine einfache Formel für den Schwanzindex α hergeleitet. Es wird gezeigt, dass α eine streng monotone Funktion des Schrittgrößenparameters η und der Batch-Größe b ist.
Überprüfung der Annahmen: Für das Modell mit normalverteilten Eingangsvektoren wird nachgewiesen, dass die benötigten Annahmen erfüllt sind.
Die Ergebnisse liefern ein detailliertes Verständnis der Schwanzverteilung des SGD-Algorithmus und dessen Abhängigkeit von den Modellparametern.
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Ewa Damek,Se... às arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.13868.pdfPerguntas Mais Profundas