Der Artikel untersucht die Fähigkeit von Großen Sprach-Modellen (LLMs), ihre eigenen Ausgaben zu diskriminieren und zu verbessern. Die Autoren führen ein einheitliches Bewertungsframework ein, das es ermöglicht, die generative und diskriminative Leistung von LLMs auf verschiedenen Aufgaben zu vergleichen.
Die Ergebnisse zeigen, dass die Leistung der LLMs bei der Diskriminierung zuvor generierter Antworten nicht zuverlässig besser ist als bei der direkten Generierung. Dies widerspricht der Annahme, dass die Fähigkeit zur Selbstdiskriminierung eine notwendige Bedingung für die Selbstverbesserung von LLMs ist.
Die Autoren untersuchen dieses Phänomen, das sie als "SELF-[IN]CORRECT" bezeichnen, weiter. Sie stellen fest, dass es nicht bei LLMs auftritt, die nicht mit autoregressiven Zielen vortrainiert wurden. Darüber hinaus zeigen sie, dass eine Vereinfachung der Diskriminierungsphase die Leistung der LLMs in dieser Phase deutlich verbessert.
Die Ergebnisse haben Auswirkungen auf das Verständnis der Selbstverbesserungsfähigkeiten von LLMs und werfen Fragen zu den zugrunde liegenden Mechanismen auf.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Dongwei Jian... at arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.04298.pdfDeeper Inquiries