核心概念
Durch selbstständiges Training eines großen Sprachmodells mit visueller Verstärkung können die Fähigkeiten zur Synthese visueller Programme verbessert werden, ohne dass eine große Sammlung von Beispielprogrammen erforderlich ist.
要約
Der Artikel beschreibt einen Ansatz zur Verbesserung der Fähigkeiten großer Sprachmodelle zur Synthese visueller Programme. Bisherige Ansätze verwenden vorgefertigte, eingefrorne Sprachmodelle, die durch wenige Beispiele trainiert werden. Der vorgestellte Ansatz ermöglicht es stattdessen, das Sprachmodell selbstständig durch interaktives Feedback zu verbessern.
Da keine großen Datensätze mit korrekten visuellen Programmen verfügbar sind, wird stattdessen ein schwaches Belohnungssignal aus bestehenden Annotationen für visuelle Sprach-Aufgaben konstruiert. Mithilfe dieses Signals wendet der Artikel einen einfachen Reinforcement-Learning-Ansatz an, um das Sprachmodell iterativ zu verbessern.
Die Experimente zeigen, dass das selbstständig trainierte Sprachmodell die Leistung eines deutlich größeren, proprietären Sprachmodells übertreffen oder zumindest erreichen kann. Der Artikel analysiert außerdem die Stabilität und Effizienz des Selbsttrainingsprozesses und zeigt, wie Fehler im Laufe der Iteration vermieden werden können.
統計
Das selbstständig trainierte Sprachmodell erreicht eine Genauigkeit von 59,2% auf dem GQA-Datensatz für visuelle Fragebeantworung, verglichen mit 53,9% für das größere GPT-3.5-turbo-Modell.
Auf dem Omnilabel-Datensatz für komplexe Objekterkennung erreicht das selbstständig trainierte Modell einen Makro-F1-Wert von 42,4%, verglichen mit 40,0% für GPT-3.5-turbo.
Auf dem WinoGround-Datensatz für kompositionelle Bild-Text-Zuordnung erreicht das selbstständig trainierte Modell eine Genauigkeit von 52,7%, verglichen mit 45,6% für GPT-3.5-turbo.
引用
"Durch selbstständiges Training eines großen Sprachmodells mit visueller Verstärkung können die Fähigkeiten zur Synthese visueller Programme verbessert werden, ohne dass eine große Sammlung von Beispielprogrammen erforderlich ist."
"Das selbstständig trainierte Sprachmodell übertrifft oder erreicht zumindest die Leistung eines deutlich größeren, proprietären Sprachmodells."