Optimale Mischung von Experten-Großsprachmodellen für effiziente Inferenz
Mischung-von-Experten-basierte Großsprachmodelle können durch Erhöhung der Expertenanzahl skaliert werden, ohne die Trainingskosten quadratisch ansteigen zu lassen. Allerdings führt eine übermäßige Erhöhung der Expertenanzahl zu ineffizienter Inferenz. Dieser Artikel untersucht den optimalen Kompromiss zwischen Modellqualität und Inferenzeffizienz.