Core Concepts
Ein Framework zur Entwicklung effizienter und portabler Deep Learning und HPC-Kernels für moderne CPU-Architekturen, das die Berechnung über Tensor-Verarbeitungsprimitive (TPPs) und die Steuerung der Schleifen über eine deklarative, hochabstrakte Schnittstelle trennt.
Abstract
Die Arbeit stellt ein Framework namens PARLOOPER vor, das es ermöglicht, effiziente und portable Deep Learning (DL) und High Performance Computing (HPC) Kernel für moderne CPU-Architekturen zu entwickeln. Das Framework besteht aus zwei Hauptkomponenten:
Tensor Processing Primitives (TPPs): Eine kompakte und ausdrucksstarke Sammlung von 2D-Tensor-Operatoren, die als Grundlage für die Berechnung dienen. TPPs sind plattformunabhängig spezifiziert, aber ihre Implementierung ist plattformspezifisch optimiert.
PARLOOPER: Ein hochabstraktes Framework zur Deklaration der logischen Schleifen um die TPP-Berechnungen. PARLOOPER generiert zur Laufzeit den optimalen Schleifencode basierend auf einer einfachen Laufzeitvorgabe (loop_spec_string). Dadurch kann der Nutzer sich auf die algorithmische Logik konzentrieren, ohne sich um die Details der Schleifenimplementierung kümmern zu müssen.
Das Framework ermöglicht es, kompakte, deklarative und hochperformante Kernel-Code zu schreiben, der auf verschiedenen CPU-Plattformen effizient ausgeführt werden kann. Die Autoren demonstrieren die Leistungsfähigkeit anhand von Standalone-Kernels und End-to-End-Workloads, die die Leistung von State-of-the-Art-Implementierungen übertreffen.
Stats
Keine relevanten Kennzahlen oder Zahlen im Text.
Quotes
Keine hervorstechenden Zitate im Text.