Core Concepts
Eine optimierte Datenplatzierung ist entscheidend, um die Beschleunigung von GEMV-Berechnungen durch Processing-in-Memory (PIM) voll auszuschöpfen. Die vorgeschlagene PIMnast-Methodik balanciert verschiedene Faktoren, um eine Datenplatzierung zu identifizieren, die eine erhebliche Beschleunigung von GEMV-Berechnungen in PIM-Systemen ermöglicht.
Abstract
Die Studie konzentriert sich auf die Beschleunigung von GEMV-Berechnungen, die einen wichtigen Bestandteil von Generative-KI-Anwendungen darstellen, durch den Einsatz von Processing-in-Memory (PIM)-Technologie.
Zunächst werden die verschiedenen Faktoren identifiziert, die die optimale Datenplatzierung in PIM-Systemen beeinflussen, wie z.B. die PIM-Architektur, die Speicherkonfiguration, die Anforderungen der Generative-KI-Anwendungen und die spezifischen Eigenschaften der GEMV-Berechnungen.
Basierend auf dieser ganzheitlichen Analyse wird die PIMnast-Methodik vorgeschlagen, die diese Faktoren ausbalanciert, um eine Datenplatzierung zu finden, die eine erhebliche Beschleunigung von GEMV-Berechnungen in PIM-Systemen ermöglicht. Zusätzlich werden Orchestrierungsoptionen identifiziert, die die PIM-Beschleunigung weiter steigern können.
Die Evaluation zeigt, dass die PIMnast-Methodik zusammen mit den identifizierten Orchestrierungsoptionen eine Beschleunigung von GEMV-Berechnungen von bis zu 6,86x im Vergleich zur SoC-Ausführung ermöglicht, was zu einer Gesamtbeschleunigung von bis zu 5x für die Latenz der Tokengenerierung in Generative-KI-Modellen führt.
Stats
Die GEMV-Berechnungen in Generative-KI-Modellen können bis zu 120 GB/s an Speicherbandbreite benötigen.
Mit PIM-Technologie kann eine Bandbreitensteigerung von bis zu 7x im Vergleich zu herkömmlichen Prozessoren erreicht werden.
Quotes
Die optimierte Datenplatzierung ist entscheidend, um die Beschleunigung von GEMV-Berechnungen durch PIM voll auszuschöpfen.
Mithilfe der PIMnast-Methodik können GEMV-Berechnungen um bis zu 6,86x beschleunigt werden.
Die Gesamtbeschleunigung für die Latenz der Tokengenerierung in Generative-KI-Modellen beträgt bis zu 5x.