Der Artikel stellt DiffAgent vor, einen LLM-Agenten, der entwickelt wurde, um die am besten geeignete Text-zu-Bild-API (Modell und Parameter) für beliebige Benutzeranfragen schnell auszuwählen.
Zunächst wird DABench, ein umfassendes Datensatz mit über 50.000 Instruktions-API-Paaren aus der Civitai-Community, eingeführt. Dieser Datensatz dient als Grundlage für das Training von DiffAgent.
DiffAgent wird dann in einem zweistufigen Trainingsverfahren namens SFTA trainiert. In der ersten Stufe erfolgt eine überwachte Feinabstimmung auf DABench, um DiffAgent-SFT zu erhalten. In der zweiten Stufe wird DiffAgent-SFT weiter mit dem RRHF-Algorithmus verfeinert, um die Übereinstimmung mit menschlichen Präferenzen zu verbessern und DiffAgent-RRHF zu erhalten.
Umfangreiche Experimente zeigen, dass DiffAgent-RRHF die Baseline deutlich übertrifft, insbesondere bei Metriken, die menschliche Präferenzen widerspiegeln. Beispielsweise übertrifft DiffAgent-RRHF die Baseline um 18,8 bis 31 Punkte im vereinheitlichten Metrik für die SD 1.5-Architektur. Darüber hinaus benötigt DiffAgent nur 4,81 Sekunden, um die geeignetste API auszuwählen, was seine effiziente Anwendbarkeit unterstreicht.
To Another Language
from source content
arxiv.org
Ключові висновки, отримані з
by Lirui Zhao,Y... о arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01342.pdfГлибші Запити