Die Studie untersucht die Verwendung von Pressure Stall Information (PSI)-Systemmetriken, um die Leistung verschiedener Anwendungen genau vorherzusagen. Es wird ein neuartiges System präsentiert, das den Prozess des Leistungslernens und der Verifizierung automatisieren kann. Die Wirksamkeit von verifizierten DNN-Leistungslernern in Cluster-Ressourcenmanagementsystemen wird untersucht.
Die Autoren führen zunächst eine Korrelationsanalyse durch, um die Beziehung zwischen Anwendungsleistung und Systemmetriken zu verstehen. Sie stellen fest, dass PSI-Metriken sowie CPU-, Netzwerk- und E/A-Nutzung gut mit der Anwendungsleistung korrelieren. Basierend auf diesen Erkenntnissen entwickeln sie ein System namens vPALs, das DNN-basierte Leistungsvorhersage mit formaler Verifizierung kombiniert.
vPALs verwendet eine Spezifikation der Monotonie, um sicherzustellen, dass die DNN-Vorhersagen mit der Intuition über den Zusammenhang zwischen Systemressourcen und Anwendungsleistung übereinstimmen. Die Autoren zeigen, dass die verifizierten DNNs die Genauigkeit der Vorhersagen im Vergleich zu unverifizierten DNNs sowohl auf Trainings- als auch auf Testdaten leicht verbessern. Darüber hinaus erreichen die verifizierten DNNs eine 100%ige Genauigkeit auf Gegenbeispielen, während die unverifizierten DNNs in vielen Fällen falsche Vorhersagen treffen.
Die Studie zeigt, dass Verifizierung ein wichtiger Schritt ist, um sichere und vertrauenswürdige Leistungsvorhersagesysteme für das Ressourcenmanagement in Clustern zu entwickeln.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Guoliang He,... at arxiv.org 04-05-2024
https://arxiv.org/pdf/2404.03079.pdfDeeper Inquiries