Durch die Verwendung einer angepassten Translate-Align-Retrieve-Methode wurde der größte serbische Frage-Antwort-Datensatz mit mehr als 87.000 Beispielen erstellt. Dieser Datensatz wurde verwendet, um mehrere vortrainierte Frage-Antwort-Modelle feinabzustimmen, wobei das BERTić-Modell auf der lateinischen Version des Datensatzes die besten Ergebnisse erzielte.
Neuronale Modelle für semantische Analyse und Generierung zeigen Leistungseinbußen auf herausfordernden Testsets, was die Grenzen dieser Modelle offenlegt.
Überwachtes Wissen aus kleinen, aufgabenspezifischen Sprachmodellen kann die Leistung großer Sprachmodelle bei der Verarbeitung von Daten außerhalb der Verteilung signifikant verbessern und Halluzinationen reduzieren.
Wir präsentieren ein Modell zur Fragengeneration in wissensbasierten Dialogen, das statt einer direkten Fragengenerierung sequenziell zunächst einen Fakt und dann eine Frage vorhersagt. Dieses Vorgehen ermöglicht eine detaillierte referenzlose Bewertung des Modellverhaltens in Bezug auf Relevanz, Faktizität und Pronominalisierung.
Durch den Einsatz von Large Language Models (LLMs) in Kombination mit einer diskurs-bewussten In-Kontext-Lernmethode können Zeitausdrücke in Texten effizient normalisiert werden, auch in Domänen und Sprachen, die vom Trainingsdatensatz abweichen.
MAFALDA ist ein Benchmark für die Klassifizierung logischer Fehlschlüsse, der bestehende Datensätze zusammenführt und vereinheitlicht. Das Projekt umfasst eine Taxonomie zur Ausrichtung, Verfeinerung und Vereinheitlichung bestehender Klassifizierungen von Fehlschlüssen, eine manuelle Annotation eines Teils des Datensatzes mit Erklärungen, ein neues Annotationsschema für subjektive NLP-Aufgaben sowie eine neue Bewertungsmethode zur Handhabung von Subjektivität.
Wir stellen Control-DAG vor, einen eingeschränkten Decodieralgorithmus für unser Directed Acyclic T5 (DA-T5)-Modell, der lexikalische, Vokabular- und Längensteuerung bietet. Wir zeigen, dass Control-DAG DA-T5 auf den Schema Guided Dialogue- und DART-Datensätzen deutlich verbessert und starke nicht-autoregressive Ergebnisse für dialogorientierte und datengesteuerte Textgenerierung erzielt.
Durch die Verwendung einer kleineren Teilmenge der Trainingsdaten und der Erstellung synthetischer Robustheitsdaten kann ein verbessertes Modell zur Bewertung der faktischen Konsistenz von maschinell generierten Texten entwickelt werden.
Durch die Repräsentation von Wortmengen als lineare Teilräume (Subräume) in vortrainierten Worteinbettungen können effiziente Berechnungen von Mengenoperationen wie Vereinigung, Schnittmenge und Komplement durchgeführt werden. Dies ermöglicht eine verbesserte Erfassung semantischer Beziehungen zwischen Wortgruppen und führt zu besseren Ergebnissen bei Aufgaben wie Textähnlichkeit und Mengenerweiterung.
Entwicklung neuartiger Systeme zur Erkennung von Halluzinationen in Sprachtechnologie-Systemen, die auf einer Vielzahl von Strategien basieren, um Modellvorhersagen mit Referenzstandards zu vergleichen, einschließlich diverser Basislinien, der Verfeinerung von vortrainierten Encodern durch überwachtes Lernen und Ensemble-Ansätze mit mehreren hochleistungsfähigen Modellen.