Das Paper "Depicting Beyond Scores" stellt das DepictQA-Modell vor, das traditionelle scorebasierte Methoden in der Bildqualitätsbewertung überwindet. Durch die Verwendung von Multi-modalen Large Language Models (MLLMs) ermöglicht DepictQA eine detaillierte, sprachbasierte, menschenähnliche Bewertung der Bildqualität. Im Gegensatz zu herkömmlichen Methoden, die auf Scores basieren, interpretiert DepictQA Bildinhalte und Verzerrungen deskriptiv und vergleichend, was eng mit dem menschlichen Denkprozess in Einklang steht. Das Modell verwendet ein hierarchisches Aufgabenframework und ein Multi-modal IQA-Trainingsdatensatz, um die Bildqualität zu bewerten. Durch den Einsatz von Multi-Source-Trainingsdaten und spezialisierten Bildtags erzielt DepictQA eine bessere Leistung als scorebasierte Ansätze auf mehreren Benchmarks. Es zeigt auch, dass sprachbasierte IQA-Methoden das Potenzial haben, für individuelle Präferenzen angepasst zu werden.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Zhiyuan You,... at arxiv.org 03-12-2024
https://arxiv.org/pdf/2312.08962.pdfDeeper Inquiries