Der Artikel stellt DRESS, ein großes Sprach-Bild-Modell (LVLM), vor, das natürliches Sprachfeedback (NLF) von großen Sprachmodellen (LLMs) nutzt, um zwei Schlüsselbeschränkungen in aktuellen LVLMs zu adressieren:
Bisherige LVLMs verlassen sich hauptsächlich auf die Feinabstimmungsphase, um die Ausrichtung an menschlichen Präferenzen zu verbessern. Ohne zusätzliches Feedback neigen sie jedoch immer noch dazu, unbrauchbare, halluzinierte oder schädliche Antworten zu generieren.
Während die Daten für die visuelle Instruktionsanpassung in der Regel in einem mehrgliedrigen Dialogformat strukturiert sind, sind die Verbindungen und Abhängigkeiten zwischen aufeinanderfolgenden Gesprächsrunden schwach. Dies schränkt die Fähigkeit zu effektiven mehrgliedrigen Interaktionen ein.
Um diese Probleme anzugehen, schlägt der Artikel eine neuartige Kategorisierung des NLF in zwei Haupttypen vor: Kritik und Verfeinerung. Die Kritik-NLF identifiziert die Stärken und Schwächen der Antworten und wird verwendet, um die LVLMs an menschliche Präferenzen anzupassen. Die Verfeinerungs-NLF bietet konkrete Verbesserungsvorschläge und wird übernommen, um die Interaktionsfähigkeit der LVLMs zu verbessern - d.h. die Fähigkeit der LVLMs, Antworten durch Einbeziehung von Feedback in mehrgliedrigen Interaktionen zu verfeinern.
Um die nicht-differenzierbare Natur des NLF zu adressieren, verallgemeinert der Artikel den bedingten Reinforcement-Learning-Algorithmus für das Training. Die experimentellen Ergebnisse zeigen, dass DRESS hilfreichere (9,76%), ehrlichere (11,52%) und harmlosere (21,03%) Antworten generieren und in mehrgliedrigen Interaktionen effektiver aus Feedback lernen kann als bisherige LVLMs.
To Another Language
from source content
arxiv.org
Viktige innsikter hentet fra
by Yangyi Chen,... klokken arxiv.org 03-20-2024
https://arxiv.org/pdf/2311.10081.pdfDypere Spørsmål