Der Artikel untersucht die Fähigkeit großer Sprachmodelle (LLMs), ihre eigenen Antworten durch Selbstkorrektur zu verbessern. Dabei wird zwischen zwei Arten der Selbstkorrektur unterschieden:
Selbstkorrektur mit externem Feedback: Hier werden die Modelle mit Informationen über die Richtigkeit ihrer Antworten versorgt, um sie zu korrigieren. Die Autoren zeigen, dass dies zu deutlichen Leistungssteigerungen führt.
Intrinsische Selbstkorrektur: Hier müssen die Modelle allein aufgrund ihrer eigenen Fähigkeiten entscheiden, ob ihre Antworten korrekt sind und sie diese gegebenenfalls korrigieren. In dieser Situation zeigt sich, dass die Leistung der Modelle nach der Selbstkorrektur sogar abnimmt.
Die Autoren analysieren, warum die Modelle Schwierigkeiten haben, ihre Antworten ohne externes Feedback zu verbessern. Sie stellen fest, dass die Modelle oft nicht in der Lage sind, die Richtigkeit ihrer eigenen Schlussfolgerungen korrekt einzuschätzen. Stattdessen neigen sie dazu, richtige Antworten fälschlicherweise in falsche umzuwandeln.
Darüber hinaus weisen die Autoren auf weitere Probleme in der Evaluierung von Selbstkorrektur-Methoden hin, wie unfaire Vergleiche zu Baselines mit äquivalenten Inferenzkosten und Schwächen im Prompt-Design.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問