Der Artikel präsentiert DialogBench, einen umfassenden Bewertungsrahmen, um die Fähigkeiten von Großen Sprachmodellen als menschenähnliche Dialogsysteme zu evaluieren.
Zunächst werden 12 Dialogaufgaben ausgewählt, die verschiedene Aspekte der menschenähnlichen Fähigkeiten abdecken, wie korrekte Kontextverständnis, Nutzung relevanten Wissens, Erkennung von Emotionen und Persönlichkeit sowie Generierung kohärenter und konsistenter Antworten.
Dann wird GPT-4 verwendet, um neue Evaluierungsinstanzen für jede Aufgabe zu generieren. Dafür wird ein Basisaufforderung entworfen, die dann weiter optimiert wird, um Verzerrungen in Bezug auf Domäne, Stil und Position der korrekten Antworten zu reduzieren. Außerdem wird ein Filtermechanismus eingeführt, um minderwertige Instanzen zu entfernen.
Schließlich wird eine umfassende Bewertung von 26 Großen Sprachmodellen, einschließlich vortrainierter und instruktionsangepasster Modelle, auf Englisch und Chinesisch durchgeführt. Die Ergebnisse zeigen, dass Instruktionsanpassung die Menschenähnlichkeit der Modelle bis zu einem gewissen Grad verbessert, aber die meisten Modelle immer noch erheblichen Verbesserungsbedarf haben, um als wirklich menschenähnliche Dialogsysteme zu fungieren. Insbesondere sind die Modelle besser im Kontextverständnis, aber relativ schwach bei der Wahrnehmung von Emotionen und Persönlichkeit.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Jiao Ou,Jund... at arxiv.org 04-01-2024
https://arxiv.org/pdf/2311.01677.pdfDeeper Inquiries