Der Artikel untersucht, wie Sparse-Mixture-of-Experts-Modelle (SMoE) effizienter gestaltet werden können, um ihre hohen Speicheranforderungen und Redundanzen zu reduzieren.
Zunächst wird ein neuartiger Ansatz namens M-SMoE vorgestellt, der die Routing-Statistiken der SMoE-Modelle nutzt, um die Experten zielgerichtet zusammenzuführen. Dabei werden die dominanten Experten identifiziert und mit ihren "Gruppenmitgliedern" verschmolzen, wobei die Aktivierungshäufigkeit als Gewichtung dient.
Darüber hinaus zeigt sich, dass die resultierenden, zusammengeführten Experten eine geringere Dimensionalität im Parameterraum aufweisen. Dies ermöglicht eine zusätzliche Kompression, die in der Methode MC-SMoE (Merge, then Compress SMoE) umgesetzt wird. Hierbei werden die zusammengeführten Experten weiter in niedrigrangige und strukturell dünn besetzte Alternativen zerlegt.
Umfangreiche Experimente auf acht Benchmarks belegen die Effektivität der Vorschläge. MC-SMoE erreicht bis zu 80% Einsparungen beim Speicherverbrauch und 20% bei den FLOPs, bei nur geringfügigen Leistungseinbußen.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Pingzhi Li,Z... ב- arxiv.org 03-15-2024
https://arxiv.org/pdf/2310.01334.pdfשאלות מעמיקות