NeuPIMs: Beschleunigung von Batch-Inferenz großer Sprachmodelle
NeuPIMs ist ein innovatives System, das die Effizienz von Large Language Models verbessert, indem es eine heterogene Beschleunigung nutzt, um die Verarbeitung von GEMM- und GEMV-Operationen zu optimieren.