Effiziente GPU-basierte Implementierung von Sparse Mixture-of-Experts (SMoE) mit ScatterMoE
ScatterMoE ist eine effiziente GPU-basierte Implementierung von Sparse Mixture-of-Experts (SMoE), die den Arbeitsspeicherverbrauch reduziert und eine leicht höhere Leistung bietet als bestehende Lösungen.