Effiziente Komprimierung von Sparse-Mixture-of-Experts-Modellen durch Zusammenführung und Kompression
Durch Zusammenführung redundanter Experten und anschließende Kompression können Sparse-Mixture-of-Experts-Modelle deutlich effizienter gestaltet werden, ohne die Leistung wesentlich zu beeinträchtigen.