Nicht alle Token in einem Korpus sind für das Sprachmodelltraining gleich wichtig. Durch selektives Trainieren auf nützlichen Tokens, die mit der gewünschten Verteilung übereinstimmen, kann die Effizienz und Leistung des Vortrainings deutlich verbessert werden.
Die Leistungssättigung kleiner Sprachmodelle kann durch einen Mismatch zwischen der niedrigen Dimensionalität ihrer versteckten Schichten und der hohen Rangzahl der Zielwahrscheinlichkeitsverteilung für kontextuelle Vorhersagen erklärt werden. Dies führt zu einer Degeneration der Darstellungen in der linearen Vorhersagekopfschicht, was die Leistung beeinträchtigt.
Doppelte Teilwörter in Sprachmodellen können deren Leistung beeinträchtigen, da die Modelle nicht perfekt über diese generalisieren können.
Ein neuartiger, intuitiver und effektiver Ansatz zur Formulierung der Semantik des LM-Latenzraums, der eine Referenzebene im Latenzraum definiert, um eine entkoppelte semantische Analyse zu ermöglichen, und eine neuartige Methode zur Berechnung von Logits verwendet, die auf Abstandsmessungen basiert, anstatt die übliche Matrixmultiplikation zu verwenden.
Mit nanoLM können Forscher mit begrenzten Ressourcen zuverlässige Schlussfolgerungen über große Sprachmodelle ziehen, indem sie nur kleine Modelle trainieren und deren Verluste genau vorhersagen.
Durch iterative Selbstverbesserung können schwache Sprachmodelle kontinuierlich in stärkere Modelle umgewandelt werden, die die Sprachausgabe an menschliche Präferenzen ausrichten.
Wir modernisieren das klassische n-Gramm-Sprachmodell, indem wir es auf ein Billionen-Token-Korpus skalieren und auf unbegrenztes n erweitern. Unser Infini-gram-Motor ermöglicht effiziente Ausbildung und Inferenz in diesem extremen Setup. Das ∞-Gramm-Sprachmodell, das vom Infini-gram-Motor angetrieben wird, bietet neue Erkenntnisse über von Menschen geschriebene und von Maschinen generierte Texte und kann bestehende neuronale Sprachmodelle verbessern.
In dieser Arbeit wird ein "World English" NNLM für On-Device-Virtuelle Assistenten entwickelt, indem regionale Varianten des Englischen kombiniert werden. Adapter-Module erweisen sich als effektiver bei der Modellierung von Dialekten als die Spezialisierung ganzer Teilnetze. Basierend auf dieser Erkenntnis und unter Ausnutzung des Designs unserer Produktionsmodelle wird eine neue Architektur für das World-English-NNLM eingeführt, die die Genauigkeits-, Latenz- und Speicheranforderungen unserer Einzeldialekt-Modelle erfüllt.
Die Mischungsverhältnisse der Trainingsdaten für große Sprachmodelle haben einen entscheidenden Einfluss auf deren Leistungsfähigkeit. Durch die Entdeckung quantitativer Gesetzmäßigkeiten zwischen Datenmischung und Modellleistung können diese Mischungsverhältnisse effizient optimiert werden.
Generative Pretrained Structured Transformers (GPST) ist ein unüberwachtes syntaktisches Sprachmodell, das in großem Maßstab ohne Verwendung von Goldstandard-Syntaxbäumen trainiert werden kann.