Die Studie präsentiert eine neue Decodierungsstrategie namens Hierarchisches Überspringen von Decodierungsschichten (HSD) für eine effizientere autoregressive Textgenerierung. Im Gegensatz zu bestehenden Methoden, die zusätzliche trainierbare Komponenten erfordern, ist HSD eine Plug-and-Play-Methode, die auf autoregressive Textgenerierungsmodelle anwendbar ist. HSD überspringt die Decodierungsschichten in einer hierarchischen Art und Weise basierend auf der aktuellen Sequenzlänge, um den Rechenaufwand zu reduzieren und die Rechenressourcen effizienter zu nutzen.
Umfangreiche Experimente auf fünf Textgenerierungsdatensätzen mit vortrainierten Sprachmodellen zeigen, dass HSD Vorteile beim Ausgleich zwischen Effizienz und Textqualität bietet. Obwohl etwa 40-60% der Schichten während der Inferenzphase übersprungen werden, kann HSD etwa 70-90% der ROUGE-Werte und BLEU-1 im Vergleich zur herkömmlichen autoregressiven Decodierung beibehalten und schneidet damit besser ab als konkurrierende Ansätze.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yunqi Zhu,Xu... at arxiv.org 03-25-2024
https://arxiv.org/pdf/2403.14919.pdfDeeper Inquiries