Eine genetisch quantisierungsbasierte Approximationsmethode namens GQA-LUT, die die Parameter automatisch unter Berücksichtigung der Quantisierung bestimmt, ermöglicht eine effiziente Implementierung nichtlinearer Operationen in Transformermodellen mit vernachlässigbarer Genauigkeitseinbuße.
Unsere SYCL-Implementierung von vollständig fusionierten Multi-Layer-Perceptrons auf Intel-Rechenzentrum-GPUs maximiert die Datenwiederverwendung in Registern und lokalem Speicher, um den Zugriff auf den langsamen globalen Speicher zu minimieren. Dies führt zu einer signifikanten Steigerung der arithmetischen Intensität und damit zu einer verbesserten Leistung, insbesondere bei der Inferenz.