Der Artikel befasst sich mit dem Problem des verteilten Lernens, bei dem Edge-Geräte kollaborativ die Modellparameter eines neuronalen Netzwerks optimieren, indem sie mit einem gemeinsamen Parameter-Server kommunizieren. In jeder Iteration berechnen die Edge-Geräte stochastische Gradientenvektoren mit unterschiedlichen Mini-Batch-Größen, die an ihre Rechenkapazitäten angepasst sind, um synchrone Updates zu ermöglichen. Anschließend führen diese Geräte eine Eins-Bit-Quantisierung durch, um die Gradienteninformationen zu komprimieren, die dann über einen bandbreitenbegrenzten Kommunikationskanal an den Parameter-Server übertragen werden. Der Parameter-Server aggregiert die binären stochastischen Gradientenvektoren mithilfe einer gewichteten Mehrheitsabstimmung.
Der Hauptbeitrag ist die Einführung von "signSGD-FV", einer neuen Methode für die Gradientenzeichenaggregation, die lernbare Gewichte verwendet, um die Geräte mit hoher Rechenleistung, insbesondere mit großen Mini-Batch-Größen, zu priorisieren. Die Autoren präsentieren eine einheitliche Konvergenzanalyse für signSGD mit einem beliebigen binären Decodierungsverfahren und zeigen, dass signSGD-FV eine theoretische Konvergenzgarantie bietet, auch wenn die Arbeiter unterschiedliche Mini-Batch-Größen verwenden. Die Simulationsergebnisse zeigen, dass signSGD-FV die Leistung bestehender Algorithmen, insbesondere bei heterogenen Mini-Batch-Größen, übertrifft.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Chanho Park,... alle arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.16372.pdfDomande più approfondite