Core Concepts
Talaria ermöglicht es ML-Praktikern, Modelle für die Hardware zu kompilieren, deren Hardware-Statistiken interaktiv zu visualisieren und eine Reihe von Optimierungen zu simulieren, um die Inferenzeffizienz zu verbessern.
Abstract
Die Studie präsentiert Talaria, ein interaktives Visualisierungssystem, das ML-Praktikern dabei hilft, effiziente ML-Modelle zu erstellen. Talaria kompiliert Modelle für die Hardware und visualisiert deren Hardware-Statistiken in einer interaktiven Tabellen- und Grafikansicht. Das System ermöglicht es Praktikern auch, verschiedene Modelloptimierungen zu simulieren und deren Auswirkungen auf Inferenzmetriken wie Latenz und Speicherverbrauch zu untersuchen.
Die Studie beginnt mit einer Bedarfsanalyse und Prototyping-Sitzungen, um die Herausforderungen und Aufgaben beim Optimieren von Modellleistung, Speicherverbrauch und Inferenzlatenz zu verstehen. Basierend darauf wurde Talaria entwickelt, das folgende Funktionen bietet:
Analytische und geometrische Analyse von Modellstatistiken
Identifizierung von Modellengpässen
Interaktives Testen verschiedener Modelloptimierungen
Kollaborative Modelloptimierung
Rückverfolgung von Hardware-Operationen zu Quellcode-Positionen
Die Studie berichtet auch über drei Evaluationen von Talaria: eine Protokollanalyse zur Nutzungsanalyse, eine Umfrage zur Nützlichkeit von 20 Systemfunktionen und qualitative Interviews mit den aktivsten Nutzern.
Stats
Die Inferenzlaufzeit des Modells beträgt derzeit 40 ms und überschreitet damit das Zielbudget von 34 ms.
Das Modell verbraucht 4,5 W Speicherleistung.
Quotes
"Wir müssen die Engpässe im Modell finden und gezielt optimieren, um die Zielmetriken zu erreichen."
"Eine interaktive Visualisierung wäre sehr hilfreich, um die Auswirkungen verschiedener Optimierungen schnell zu testen."
"Es wäre wichtig, die optimierten Stellen im Quellcode zurückverfolgen zu können, um die Änderungen umzusetzen."