Der Artikel beschreibt eine innovative Methode namens FGAIF (Fine-Grained Artificial Intelligence Feedback) zur Ausrichtung großer Sprach-Bild-Modelle (LVLMs). FGAIF besteht aus drei Schritten:
KI-basierte Rückmeldungssammlung: Mithilfe von KI-Werkzeugen werden drei Arten von Halluzinationen (Objektexistenz, Objektattribute, Objektbeziehungen) in den generierten Antworten der LVLMs auf Segmentebene erkannt und entsprechende Rückmeldungen gesammelt.
Training feingranularer Belohnungsmodelle: Basierend auf den gesammelten Rückmeldungen werden drei spezialisierte Belohnungsmodelle trainiert, die dichte Belohnungen für die verschiedenen Halluzinationsarten produzieren können.
Verstärkungslernen mit feingranularer Rückmeldung: Ein neuartiger feingranularer Rückmeldungsmodul wird in den Proximal Policy Optimization (PPO)-Algorithmus integriert, um die LVLMs weiter zu verfeinern.
Die umfangreichen Experimente auf Halluzinations- und allgemeinen Benchmarks zeigen die Überlegenheit des FGAIF-Ansatzes gegenüber bestehenden Methoden. Die Ablationsstudie belegt die Notwendigkeit jeder Komponente von FGAIF.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Liqiang Jing... ב- arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.05046.pdfשאלות מעמיקות