Die Forschung zu großen Multimedia-Modellen (LMMs) befindet sich in einer aufregenden, aber noch vorläufigen Phase. Aktuelle LMMs haben beeindruckende Generalisierungsfähigkeiten beim Verständnis von Hochsemantik und der Erzeugung visueller Signale gezeigt. Allerdings haben sie derzeit noch nicht die ausreichende Fähigkeit, die Niedrigstufenqualität visueller Signale im Einklang mit der menschlichen Wahrnehmung zu erfassen.
Um diese Schwäche zu beheben, zielt diese Arbeit darauf ab, die Fähigkeit von LMMs in diesem Aspekt umfassend zu verbessern. Visuelle Qualitätsbewertung zielt darauf ab, die Wahrnehmungsqualität visueller Signale im Einklang mit der menschlichen Wahrnehmung zu qualifizieren. Konventionelle Spezialistenmethoden haben in Domäneneinstellungen (innerhalb des Datensatzes) bereits hohe statistische Korrelationen mit subjektiven Bewertungen der Menschen erreicht. Die Qualifizierung der visuellen Wahrnehmungsqualität in einem allgemeinen Umfang bleibt jedoch aufgrund der Vielfalt visueller Signale und der Komplexität der menschlichen Wahrnehmung eine große Herausforderung.
In dieser Arbeit unternehmen wir den ersten Versuch, ein LMM für die breitgefächerte Bewertung der subjektiven Bildqualität zu entwickeln, wobei sowohl die Generalisierbarkeit als auch die Vielseitigkeit berücksichtigt werden. Zu diesem Zweck stellen wir fest, dass nicht die Modellarchitektur der Schlüssel ist, sondern eine geeignete Datenkonstruktion und eine effektive Trainingsstrategie. Wir folgen daher gängigen Praktiken beim Aufbau anderer LLMs, um das Modell mit einem vortrainierten Visionsencoder, einem vortrainierten LLM und einem lernbaren Adapter zu konfigurieren.
Infolgedessen schlagen wir VisualCritic vor, das erste LMM seiner Art, das die breitgefächerte Bewertung der subjektiven Bildqualität unterstützt. Im Vergleich zu herkömmlichen Spezialistenmodellen in diesem Bereich zeigt VisualCritic den aktuellen Stand der Technik bei der Generalisierungsfähigkeit über Datensätze hinweg, sowohl für fotografische als auch für KI-generierte Bilder. Darüber hinaus ermöglicht es neben den Chat-Fähigkeiten weitere domänenrelevante Funktionalitäten wie qualitative Beschreibungen und die Erkennung von Authentizität.
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Zhipeng Huan... às arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12806.pdfPerguntas Mais Profundas