Generalisierungsfehleranalyse für spärliche Mixture-of-Experts-Modelle: Eine Vorstudie
Die Generalisierungsfehlergrenze für spärliche Mixture-of-Experts-Modelle hängt von deren hochstufiger Strukturhyperparameter ab und zeigt, dass eine stärkere Spärlichkeit zu einer besseren Generalisierung führen kann, selbst bei wachsender Gesamtmodellgröße.