Halluzinationen in Großen Sprachmodellen können effektiv durch Analyse der internen Zustandsübergangsdynamik erkannt werden.
Ein neuartiger Ansatz zur Nutzung von Zwischenrepräsentationen eines vortrainierten Sprachsynthese-Modells (Tacotron 2) verbessert die Leistung beim Schlüsselwortspotting mit offenem Vokabular.
Sprachmodelle sollten zeitabhängige Fakten als solche erkennen und entsprechend verarbeiten. Mutable Fakten sind leichter zu aktualisieren als immutable Fakten.
Große Sprachmodelle können Menschen dabei helfen, die Richtigkeit von Informationen zu überprüfen, aber sie können auch zu einer Überverlässigkeit auf die Erklärungen der Modelle führen, insbesondere wenn diese falsch sind.
Diese Studie untersucht die Leistungsdynamik verschiedener großer Sprachmodelle während des Vortrainings, um Erkenntnisse über die Optimierung und Skalierung dieser Modelle zu gewinnen.
Große Sprachmodelle neigen dazu, auch bei bekannten Fakten fehlerhafte Vorhersagen zu treffen, was ihre Zuverlässigkeit in praktischen Anwendungen beeinträchtigt.
Transformer-basierte Sprachmodelle verwenden spezifische Aufmerksamheitsköpfe, um Argumente aus dem Kontext zu extrahieren, und nachfolgende MLP-Schichten, um diese Argumente zu aktivieren und eine implizite Funktion anzuwenden, um die richtigen Antworten zu generieren. Zusätzlich nutzen die Modelle einen universellen Anti-Übervertrauens-Mechanismus in der letzten Schicht, um korrekte Vorhersagen zu unterdrücken.
Durch optimale Umformulierung von Eingabeaufforderungen und das Einfügen von [PAUSE]-Tokens kann die Verständnisfähigkeit von Großen Sprachmodellen verbessert und so Halluzinationen vermieden werden.
Sprachmodelle neigen dazu, nicht-faktische Halluzinationen zu generieren, die nicht mit dem Weltwissen übereinstimmen. Unsere Studie identifiziert zwei grundlegende mechanistische Ursachen für diese Fehler: 1) unzureichendes Wissen über die Attribute des Subjekts in den unteren Schichten der Mehrschicht-Perzeptrone (MLP) und 2) Fehler bei der Auswahl des richtigen Objektattributs in den oberen Schichten der Aufmerksamkeitsköpfe und MLPs.
ALISA, eine neuartige Algorithmus-System-Co-Design-Lösung, beschleunigt die Inferenz großer Sprachmodelle in ressourcenbeschränkten Systemen durch sparsamkeitsbewusstes KV-Caching und dynamische Ablaufplanung.