Tiefere Transformer-Sprachmodelle zeigen eine bessere kompositionelle Generalisierung als flachere Modelle, auch wenn der Nutzen zusätzlicher Schichten schnell abnimmt.
Durch strukturiertes Pruning und dynamisches Batchladen können leistungsfähige, kompakte Sprachmodelle mit deutlich weniger Rechenaufwand als das Training von Grund auf entwickelt werden.
Entwicklung und Veröffentlichung von zwei kompakten Sprachmodellen (TeenyTinyLlama) für die Textgenerierung in brasilianischem Portugiesisch unter einer permissiven Lizenz.
MiniCPM, eine Reihe von kleinen Sprachmodellen, die nicht nur in ihren jeweiligen Kategorien hervorragen, sondern auch mit 7B-13B Sprachmodellen vergleichbare Fähigkeiten aufweisen. Unser sorgfältig konzipierter Trainingsansatz ermöglicht eine nahtlose Skalierung sowohl der Modellgröße als auch der Datenhorizonte.
Die Halluzinationsrangliste ist eine Initiative zur quantitativen Messung und zum Vergleich der Tendenz von Sprachmodellen, Halluzinationen zu produzieren. Sie verwendet einen umfassenden Satz von Benchmarks, die sich auf verschiedene Aspekte von Halluzinationen wie Faktizität und Treue konzentrieren, um die Leistung verschiedener Modelle zu bewerten und Erkenntnisse für Forscher und Praktiker zu liefern.
Durch die Anwendung phylogenetischer Algorithmen auf große Sprachmodelle können deren Feinabstimmungsbeziehungen erforscht und ihre Leistungsmerkmale vorhergesagt werden.
Große Sprachmodelle wie gpt-3.5-turbo und claude-instant-1.2 zeigen inhärente Verzerrungen bei der Auswahl von Objekten aus Listen, die mit der kognitiven Belastung zusammenhängen. Diese Verzerrungen können durch geeignete Methoden wie eine zweistufige Abfragestruktur reduziert werden.
Kleine Teilmenge von "Cherry"-Parametern haben einen unverhältnismäßig großen Einfluss auf die Modellleistung, während die überwiegende Mehrheit der Parameter nur einen minimalen Einfluss haben. Diese Heterogenität kann durch einen neuartigen quantisierungsbasierten Trainingsansatz (CherryQ) effektiv genutzt werden, um die Modellleistung bei extremer Komprimierung zu erhalten.
Durch die Einführung des Conifer-Datensatzes, eines neuartigen Datensatzes für Anweisungstuning, und eines progressiven Lernschemas können Sprachmodelle ihre Fähigkeit zur Befolgung komplexer Anweisungen mit Einschränkungen deutlich verbessern.
Dieser Artikel untersucht, ob Lokalisierungsmethoden in der Lage sind, die für die Memorisierung einer bestimmten Sequenz verantwortlichen Komponenten in großen Sprachmodellen (LLMs) zu identifizieren.