Die Studie untersucht acht VQA-Datensätze mit realistischen Verzerrungen durch den Entwurf minimalistischer BVQA-Modelle. Diese Modelle bestehen aus vier grundlegenden Bausteinen: einem Videopräprozessor für aggressive raum-zeitliche Downsampling, einem räumlichen Qualitätsanalysator, einem optionalen zeitlichen Qualitätsanalysator und einem Qualitätsregressor.
Die Autoren trainieren zehn Varianten dieser BVQA-Modelle auf den acht VQA-Datensätzen und vergleichen ihre Leistung. Sie stellen fest, dass fast alle Datensätze in unterschiedlichem Maße unter dem Problem des "leichten Datensatzes" leiden, bei dem die Videoqualität oft durch einfache BIQA-Lösungen abgeschätzt werden kann. Um diese Behauptung weiter zu unterstützen, untersuchen die Autoren auch die Generalisierungsfähigkeit ihrer Modelle und führen eine umfangreiche Ablation der BVQA-Designoptionen durch.
Die Ergebnisse werfen Zweifel an den derzeitigen Fortschritten in der BVQA auf und geben gleichzeitig Hinweise auf bewährte Praktiken für den Aufbau der nächsten Generation von VQA-Datensätzen und -Modellen.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Wei Sun,Wen ... a las arxiv.org 04-04-2024
https://arxiv.org/pdf/2307.13981.pdfConsultas más profundas