Hochleistungsmatrixmultiplikation mit ganzzahligen Recheneinheiten
Das Ozaki-Schema ermöglicht die Berechnung von hochpräziser Matrixmultiplikation auf Recheneinheiten mit niedriger Genauigkeit, indem die Eingabematrizen in mehrere Teilmatrizen aufgeteilt und separat multipliziert werden. Die Autoren zeigen, dass die Verwendung von ganzzahligen Recheneinheiten wie den NVIDIA Tensor Cores theoretische Vorteile in Bezug auf Genauigkeit, Speicherverbrauch und Rechenaufwand bietet.