Core Concepts
DiPaCo ist eine modulare und verteilte Architektur und Trainingsmethode für große Sprachmodelle, die eine hohe Leistung bei geringem Kommunikationsaufwand zwischen den Geräten ermöglicht.
Abstract
Der Artikel stellt DiPaCo, eine neue Architektur und Trainingsmethode für große Sprachmodelle, vor. DiPaCo verteilt die Berechnung, indem es den Eingaben verschiedene Pfade durch eine Reihe von gemeinsam genutzten Modulen zuweist. Zusammen mit einem auf Local-SGD basierenden Optimierungsverfahren (DiLoCo), das die Module mit deutlich reduzierter Kommunikation synchron hält, ermöglicht dieser Ansatz das Training über schlecht verbundene und heterogene Arbeiter hinweg, mit einem Design, das die Robustheit gegenüber Ausfällen und Unterbrechungen der Arbeiter gewährleistet.
Während des Trainings wird die Datenmenge vorab in Shards aufgeteilt, die jeweils einem Pfad zugeordnet werden. Die Pfade werden dann unabhängig voneinander trainiert, wobei nur gelegentlich Kommunikation für die Synchronisierung der gemeinsam genutzten Module erforderlich ist. Zur Inferenz muss nur ein einzelner Pfad für jede Eingabe ausgeführt werden, ohne dass eine Modellkompression erforderlich ist.
Die Experimente auf dem weit verbreiteten C4-Benchmark zeigen, dass DiPaCo bei gleicher Anzahl von Trainingsschritten, aber weniger Rechenzeit, die Leistung eines dichten Transformer-Sprachmodells mit 1 Milliarde Parametern übertrifft, indem es einen von 256 möglichen Pfaden wählt, von denen jeder eine Größe von 150 Millionen Parametern hat.
Stats
DiPaCo übertrifft die Leistung eines dichten Transformer-Sprachmodells mit 1 Milliarde Parametern bei gleicher Anzahl von Trainingsschritten.
DiPaCo verwendet 256 Pfade mit je 150 Millionen Parametern.
Die Trainingszeit von DiPaCo ist 45% kürzer als die des 1 Milliarde Parameter großen Modells.
Quotes
"DiPaCo's architecture and optimization have been co-designed to reduce communication and enable better scaling."
"During both training and deployment, a query is routed to a replica of a path rather than a replica of the whole model; in other words, the DiPaCo architecture is sparsely activated."