Beschleunigung der LLM-Inferenz durch spekulative Decodierung mit semantischen adaptiven Token
Durch die Einführung semantischer adaptiver Token können große Sprachmodelle (LLMs) hochwertige Entwurfstoken ohne Änderung ihrer Struktur erzeugen. Eine innovative Trainingsmethodik ermöglicht es LLMs, genaue Entwurfstoken zu erstellen, ohne die Gesamtgenauigkeit und -leistung des Modells zu beeinträchtigen. Darüber hinaus wird ein effizientes "Zwei-Schritt-Entwurf-dann-Verifizierung"-Generierungsverfahren für sowohl die Greedy-Suche als auch die Nucleus-Stichprobenentnahme vorgeschlagen, was zu einer hohen Decodierungseffizienz führt.