Semiparametrisches Token-Sequenz-Co-Supervision: Eine effiziente Methode zur Verbesserung der Leistung von Sprachmodellen
Ein semiparametrisches Token-Sequenz-Co-Supervision-Trainingsverfahren, das ein Sprachmodell durch gleichzeitige Nutzung von Supervision aus dem parametrischen Token-Embedding-Raum und dem nichtparametrischen Sequenz-Embedding-Raum trainiert, übertrifft Modelle, die nur mit einer der beiden Supervisionen trainiert wurden.