Основные понятия
Das Ozaki-Schema ermöglicht die Berechnung von hochpräziser Matrixmultiplikation auf Recheneinheiten mit niedriger Genauigkeit, indem die Eingabematrizen in mehrere Teilmatrizen aufgeteilt und separat multipliziert werden. Die Autoren zeigen, dass die Verwendung von ganzzahligen Recheneinheiten wie den NVIDIA Tensor Cores theoretische Vorteile in Bezug auf Genauigkeit, Speicherverbrauch und Rechenaufwand bietet.
Аннотация
Die Autoren untersuchen die Verwendung von ganzzahligen Recheneinheiten (Integer Matrix Multiplication Units, IMMUs) für das Ozaki-Schema zur Berechnung von hochpräziser Matrixmultiplikation.
Zunächst erklären sie die Grundlagen des Ozaki-Schemas und vergleichen es mit anderen Methoden zur Berechnung von Matrixmultiplikation auf Recheneinheiten mit niedriger Genauigkeit. Sie zeigen die theoretischen Vorteile der Verwendung von IMMUs gegenüber Fließkomma-Recheneinheiten (FMMUs):
- IMMUs können mehr gültige Bits pro Byte in einer Teilmatrix speichern, was zu einer geringeren Anzahl von Teilungen führt.
- IMMUs benötigen weniger Arbeitsspeicher, da sie die duplizierte Exponentendarstellung vermeiden können und die Anzahl der Teilungen reduzieren.
- IMMUs können die Anzahl der Matrixmultiplikationen im Algorithmus quadratisch zur Anzahl der Teilungen reduzieren.
- IMMUs haben typischerweise eine höhere Rechenleistung als FMMUs.
Die Autoren implementieren das Ozaki-Schema auf NVIDIA Tensor Cores und vergleichen die Genauigkeit, Rechenleistung und Energieeffizienz mit cuBLAS DGEMM und einer bestehenden Implementierung auf FP16 Tensor Cores. Sie zeigen, dass ihre Implementierung auf NVIDIA Verbrauchergrafikprozessoren bis zu 6-mal schneller ist als die Referenzimplementierungen, obwohl es einen Zielkonflikt zwischen Rechenleistung und Exponentenverteilung der Eingabematrizen gibt.
Darüber hinaus wenden die Autoren das Ozaki-Schema auf der Basis von ganzzahligen Tensor Cores auf die Simulation von Quantenkreisen an und erreichen eine Leistungssteigerung von bis zu 4,33-fach gegenüber cuBLAS ZGEMM bei Beibehaltung der FP64-Genauigkeit.
Статистика
Die Berechnung von DGEMM auf NVIDIA A100 GPU erreicht über 90% der theoretischen Spitzenleistung der FP64 Tensor Cores (19,5 TFlop/s).
Die Implementierung von INT8x𝑋 ist 3 bis 5-mal langsamer als DGEMM auf der A100 GPU.
Auf anderen NVIDIA GPUs wie TITAN RTX, RTX A6000 und RTX 6000 Ada sind die INT8x𝑋-Implementierungen jedoch schneller als DGEMM.
Цитаты
"Wir zeigen die theoretischen Vorteile der Verwendung der ganzzahligen Matrixmultiplikationseinheit anstelle der Gleitkomma-Matrixmultiplikationseinheit in Bezug auf Genauigkeit, Speicherverbrauch und Rechenaufwand."
"Unsere Implementierung übertrifft cuBLAS DGEMM und die bestehende Implementierung auf FP16 Tensor Cores um bis zu 6-fach auf NVIDIA Verbrauchergrafikprozessoren, obwohl es einen Zielkonflikt zwischen Rechenleistung und Exponentenverteilung der Eingabematrizen gibt."