Effiziente Bereitstellung von Deep-Learning-Inferenz-Services auf Serverless-Plattformen durch ein modellbasiertes Partitionierungsframework
MOPAR, ein neuartiges Partitionierungsframework, optimiert die Ressourceneffizienz und Latenz von Deep-Learning-Inferenz-Services auf Serverless-Plattformen durch eine hybride Partitionierung des Modells und systematische Kommunikationsoptimierung.