核心概念
Die Kommunikationsoptimierung ist entscheidend für die Leistungssteigerung des verteilten Trainings von großen Deep-Learning-Modellen. Eine Zusammenarbeit über verschiedene Schichten der Architektur hinweg bietet vielversprechende Möglichkeiten zur Verbesserung der Kommunikationseffizienz.
摘要
Dieser Artikel gibt einen Überblick über die Architektur des verteilten Trainings von Deep-Learning-Modellen und analysiert die Beziehungen zwischen Parallelisierungsstrategie, kollektiver Kommunikationsbibliothek und Netzwerk aus der Perspektive der Kommunikationsoptimierung.
Es werden aktuelle Forschungsfortschritte in diesen drei Bereichen vorgestellt. Dabei zeigt sich, dass die einzelnen Schichten der derzeitigen Architektur relativ unabhängig voneinander sind, was die Zusammenarbeit zur Kommunikationsoptimierung erschwert.
Daher wird ein kommunikationseffizientes Fünf-Schichten-Paradigma vorgeschlagen, das Möglichkeiten für eine Querschnittsoptimierung bietet. Vier vielversprechende Forschungsrichtungen werden diskutiert: "Vertikal", "Horizontal", "Intra-Inter" und "Host-Net" Co-Design.
統計資料
Die Kommunikationsaufgaben machen bis zu 60% der Iterationszeit beim verteilten Training in Metas Produktionsumgebung aus.
Training eines GPT-3-Modells mit 175 Milliarden Parametern auf einer einzelnen Nvidia V100-GPU würde etwa 288 Jahre dauern.
引述
"Wenn die für die Berechnung aufgewendete Zeit reduziert wird, tritt die Kommunikationszeit stärker in den Vordergrund und wird zunehmend zum Flaschenhals."
"Systematisches Optimieren des verteilten Trainings ist keine einfache Aufgabe. Die Architektur des verteilten Deep-Learning-Trainings besteht aus Hardware- und Softwareteilen, die effektiv zusammenarbeiten müssen, um Effizienz zu erreichen."