Der Artikel beschreibt einen Ansatz zur Verbesserung der Fähigkeiten großer Sprachmodelle zur Synthese visueller Programme. Bisherige Ansätze verwenden vorgefertigte, eingefrorne Sprachmodelle, die durch wenige Beispiele trainiert werden. Der vorgestellte Ansatz ermöglicht es stattdessen, das Sprachmodell selbstständig durch interaktives Feedback zu verbessern.
Da keine großen Datensätze mit korrekten visuellen Programmen verfügbar sind, wird stattdessen ein schwaches Belohnungssignal aus bestehenden Annotationen für visuelle Sprach-Aufgaben konstruiert. Mithilfe dieses Signals wendet der Artikel einen einfachen Reinforcement-Learning-Ansatz an, um das Sprachmodell iterativ zu verbessern.
Die Experimente zeigen, dass das selbstständig trainierte Sprachmodell die Leistung eines deutlich größeren, proprietären Sprachmodells übertreffen oder zumindest erreichen kann. Der Artikel analysiert außerdem die Stabilität und Effizienz des Selbsttrainingsprozesses und zeigt, wie Fehler im Laufe der Iteration vermieden werden können.
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Zaid Khan,Vi... om arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.04627.pdfDiepere vragen