In dieser Arbeit wird ein semiparametrisches Token-Sequenz-Co-Supervision-Trainingsverfahren vorgestellt, das ein Sprachmodell (Gen) durch gleichzeitige Nutzung von Supervision aus dem parametrischen Token-Embedding-Raum (Nächste-Token-Vorhersage, NTP) und dem nichtparametrischen Sequenz-Embedding-Raum (Nächste-Sequenz-Vorhersage, NSP) trainiert.
Der nichtparametrische Sequenz-Embedding-Raum wird von einem separaten Sprachmodell (Embseq) konstruiert, das den gesamten Eingabetext in ein einzelnes, repräsentatives Embedding verdichtet. Die Supervision wird über kontrastives Lernen zwischen den Embseq-Embeddings und der Ausgabeverteilung von Gen berechnet.
Die Experimente über 10 informationssuchende Datensätze zeigen, dass Modelle, die mit semiparametrischem Token-Sequenz-Co-Supervision trainiert wurden, Modelle, die nur mit einer der beiden Supervisionen trainiert wurden, deutlich übertreffen (durchschnittliche Leistungssteigerung von 14,2). Dies deutet darauf hin, dass die Konstruktion eines gemeinsamen Raums durch Co-Supervision die Generalisierung und Robustheit des Sprachmodells fördert.
Die Leistung des nichtparametrischen Raums unter semiparametrischem Token-Sequenz-Co-Supervision ist stabiler im Vergleich zu Modellen, die nur mit NSP trainiert wurden, was darauf hindeutet, dass die Robustheit des parametrischen Raums, die durch Vortraining etabliert wurde, eine solide Grundlage bietet, die die Stabilität des nichtparametrischen Raums verbessert.
Außerdem tendieren Modelle, die mit semiparametrischem Token-Sequenz-Co-Supervision trainiert wurden, im Gegensatz zu Modellen, die nur mit NTP trainiert wurden, dazu, Wissen aus dem nichtparametrischen Raum effektiv während der Generierung zu nutzen, was auf einen Wechsel vom reinen Auswendiglernen zur aktiven Wissensnutzung hindeutet.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Hyunji Lee,D... ב- arxiv.org 03-15-2024
https://arxiv.org/pdf/2403.09024.pdfשאלות מעמיקות