Core Concepts
FP8-Formate bieten im Vergleich zu INT8 eine höhere Genauigkeit, bessere Abdeckung von Workloads und Eignung für eine breitere Palette von Operationen wie LayerNorm und BatchNorm.
Abstract
Die Studie untersucht die Vorteile von FP8-Datenformaten für die Post-Training-Quantisierung über 75 einzigartige Netzwerkarchitekturen hinweg, die ein breites Spektrum an Aufgaben wie Maschinelle Übersetzung, Sprachmodellierung, Textgenerierung, Bildklassifizierung, -generierung und -segmentierung abdecken.
Es werden drei verschiedene FP8-Darstellungen (E5M2, E4M3 und E3M4) untersucht, um die Auswirkungen unterschiedlicher Kompromisse zwischen Dynamikbereich und Genauigkeit auf die Modellgenauigkeit zu analysieren. Basierend auf den umfangreichen Studien wurde ein Quantisierungsworkflow entwickelt, der über verschiedene Netzwerkarchitekturen hinweg verallgemeinert werden kann.
Die empirischen Ergebnisse zeigen, dass FP8-Formate INT8 in mehreren Aspekten übertreffen, darunter Workload-Abdeckung (92,64% vs. 65,87%), Modellgenauigkeit und Eignung für eine breitere Palette von Operationen. Darüber hinaus legen die Ergebnisse nahe, dass E4M3 für NLP-Modelle besser geeignet ist, während E3M4 geringfügig besser als E4M3 bei Computervisions-Aufgaben abschneidet.
Stats
Die Workload-Abdeckungsrate für E4M3 beträgt 92,64%, während sie für INT8 nur 65,87% beträgt.
Die Workload-Abdeckungsrate für E4M3 bei NLP-Modellen liegt bei 96,32%.
Quotes
"FP8-Formate bieten insgesamt eine höhere Genauigkeit, eine bessere Workload-Abdeckung im Vergleich zu INT8 (92,64% vs. 65,87%) und können mehr Operationen wie LayerNorm und BatchNorm handhaben."
"E4M3 ist für eine breite Palette von NLP-Modellen besser geeignet, während E3M4 geringfügig besser als E4M3 bei Computervisions-Aufgaben abschneidet."