Die Studie evaluiert die Fähigkeit von vier führenden instruktionsgesteuerten Sprachmodell-Familien (Flan-T5, GPT-Serie, Vicuna, OPT-IML) über verschiedene Modellgrößen hinweg, Anweisungen zu befolgen. Dazu wird ein neuartiges Verfahren der "Verbalisierer-Manipulation" verwendet, um Anweisungen zu erstellen, die in unterschiedlichem Maße mit den Vorkenntnissen der Modelle übereinstimmen - von natürlich bis unnatürlich.
Die Ergebnisse zeigen, dass größere Modelle bei natürlichen und neutralen Anweisungen besser abschneiden. Allerdings divergieren die Leistungen der verschiedenen Modell-Familien bei unnatürlichen Anweisungen signifikant, unabhängig von der Modellgröße. Selbst die stärksten Modelle wie ChatGPT und GPT-4 haben Schwierigkeiten, unnatürliche Anweisungen, die im Widerspruch zu ihren Vorkenntnissen stehen, zu befolgen. Dies deutet darauf hin, dass die bloße Skalierung nicht ausreicht, um die Fähigkeit zum Befolgen von Anweisungen zu verbessern, wenn diese im Widerspruch zu den Vorkenntnissen der Modelle stehen.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések