Core Concepts
Große Sprachmodelle haben Schwierigkeiten bei der kompositorischen Beziehungsbegründung.
Abstract
Die Analyse untersucht die Fähigkeit großer Sprachmodelle, komplexe Beziehungen zu begründen. Es werden verschiedene Modelle und Prompting-Techniken verwendet, um die Leistung in verschiedenen Sprachen zu bewerten. Die Ergebnisse zeigen, dass die aktuellen Modelle Schwierigkeiten haben, komplexe Fragen zu beantworten, insbesondere in Bezug auf kompositorische Beziehungen.
Inhaltsverzeichnis
Einführung
Fokus auf die Fähigkeiten von LLMs
Untersuchung der kompositorischen Beziehungsbegründung
Verwandte Arbeiten
Untersuchung der Fähigkeit von LLMs, umgekehrte Beziehungen zu lernen
Untersuchung von Benchmarks für das Verständnis von Sprache
Motivation
Untersuchung der Fähigkeit von LLMs, komplexe Beziehungen zu erkennen
Benchmark
Untersuchung der Fähigkeit von LLMs, kompositorische Beziehungen zu begründen
Experiment
Bewertung der Leistung verschiedener LLMs in multilingualer kompositorischer Beziehungsbegründung
Schlussfolgerung
Feststellung der Schwierigkeiten von LLMs bei der kompositorischen Beziehungsbegründung
Stats
"GPT-4 zeigt eine durchschnittliche Genauigkeit von 65,6% in allen Kategorien."
"ChatGPT erreicht eine 5-Schuss-Genauigkeit von 39,8%."
"GPT-3 zeigt eine Genauigkeit von 26,4% in Zero-Shot-Szenarien."
Quotes
"Große Sprachmodelle können leicht von irrelevanten Informationen abgelenkt werden."
"LLMs haben Schwierigkeiten, komplexe familiäre Beziehungen zu erkennen."