Sprachverarbeitung Künstliche Intelligenz

سجل دخولك

رؤى - Sprachverarbeitung Künstliche Intelligenz

Erkennung und Vorhersage von Halluzinationen in Großen Sprachmodellen durch Analyse der Zustandsübergangsdynamik

Halluzinationen in Großen Sprachmodellen können effektiv durch Analyse der internen Zustandsübergangsdynamik erkannt werden.

Effizientes Schlüsselwortspotting durch Transferlernen aus der Sprachsynthese

Ein neuartiger Ansatz zur Nutzung von Zwischenrepräsentationen eines vortrainierten Sprachsynthese-Modells (Tacotron 2) verbessert die Leistung beim Schlüsselwortspotting mit offenem Vokabular.

Zeitabhängige Fakten in Sprachmodellen: Eine Studie zur Mutabilität von Fakten

Sprachmodelle sollten zeitabhängige Fakten als solche erkennen und entsprechend verarbeiten. Mutable Fakten sind leichter zu aktualisieren als immutable Fakten.

Große Sprachmodelle helfen Menschen dabei, die Wahrheit zu überprüfen - außer wenn sie überzeugend falsch sind

Große Sprachmodelle können Menschen dabei helfen, die Richtigkeit von Informationen zu überprüfen, aber sie können auch zu einer Überverlässigkeit auf die Erklärungen der Modelle führen, insbesondere wenn diese falsch sind.

Umfassende Analyse der Leistungsdynamik großer Sprachmodelle während des Vortrainings

Diese Studie untersucht die Leistungsdynamik verschiedener großer Sprachmodelle während des Vortrainings, um Erkenntnisse über die Optimierung und Skalierung dieser Modelle zu gewinnen.

Fehlerhafte Faktenvorhersagen von großen Sprachmodellen trotz bekannter Fakten

Große Sprachmodelle neigen dazu, auch bei bekannten Fakten fehlerhafte Vorhersagen zu treffen, was ihre Zuverlässigkeit in praktischen Anwendungen beeinträchtigt.

Detaillierte Analyse der Mechanismen zur Faktenrückgewinnung in Transformer-basierten Sprachmodellen

Transformer-basierte Sprachmodelle verwenden spezifische Aufmerksamheitsköpfe, um Argumente aus dem Kontext zu extrahieren, und nachfolgende MLP-Schichten, um diese Argumente zu aktivieren und eine implizite Funktion anzuwenden, um die richtigen Antworten zu generieren. Zusätzlich nutzen die Modelle einen universellen Anti-Übervertrauens-Mechanismus in der letzten Schicht, um korrekte Vorhersagen zu unterdrücken.

Vermeidung von Halluzinationen bei Großen Sprachmodellen durch optimale Umformulierung und Einfügen von [PAUSE]-Tokens

Durch optimale Umformulierung von Eingabeaufforderungen und das Einfügen von [PAUSE]-Tokens kann die Verständnisfähigkeit von Großen Sprachmodellen verbessert und so Halluzinationen vermieden werden.

Systematische Fehler in Sprachmodellen: Mechanismen nicht-faktischer Halluzinationen

Sprachmodelle neigen dazu, nicht-faktische Halluzinationen zu generieren, die nicht mit dem Weltwissen übereinstimmen. Unsere Studie identifiziert zwei grundlegende mechanistische Ursachen für diese Fehler: 1) unzureichendes Wissen über die Attribute des Subjekts in den unteren Schichten der Mehrschicht-Perzeptrone (MLP) und 2) Fehler bei der Auswahl des richtigen Objektattributs in den oberen Schichten der Aufmerksamkeitsköpfe und MLPs.

Beschleunigung der Inferenz großer Sprachmodelle durch sparsamkeitsbewusstes KV-Caching

ALISA, eine neuartige Algorithmus-System-Co-Design-Lösung, beschleunigt die Inferenz großer Sprachmodelle in ressourcenbeschränkten Systemen durch sparsamkeitsbewusstes KV-Caching und dynamische Ablaufplanung.

حول

المنتجات

الموارد