Das LM Transparency Tool (LM-TT) ist ein Open-Source-Framework, das es ermöglicht, das Verhalten von Transformer-basierten Sprachmodellen bis auf die Ebene einzelner Aufmerksamheitsköpfe und Feedforward-Neuronen zurückzuverfolgen. Es visualisiert den wichtigsten Teil des Informationsflusses, attributiert Änderungen auf Modellblöcke und interpretiert deren Funktionen, um ein umfassendes Verständnis des Modellverhaltens zu ermöglichen.
Selbst kleine Änderungen an Prompts, wie das Hinzufügen eines Leerzeichens, können die Vorhersagen großer Sprachmodelle erheblich beeinflussen. Bestimmte Formatierungen und Jailbreaks können sogar zu katastrophalen Auswirkungen auf die von Sprachmodellen erstellten Daten führen.
Sprachmodelle, die mit k-Nächste-Nachbarn-Abrufverstärkung (kNN-Abrufverstärkung) ausgestattet sind, übertreffen herkömmliche Sprachmodelle, da sie besser in der Lage sind, aus überbestimmten Trainingsdaten zu generalisieren.
Eine statistische Methode zur Entwicklung leistungsfähiger Erkennungsregeln für Wasserzeichen in Texten von Großen Sprachmodellen, die eine optimale Balance zwischen Fehlerarten (Typ I und Typ II) erreicht.