Die Studie untersucht acht VQA-Datensätze mit realistischen Verzerrungen durch den Entwurf minimalistischer BVQA-Modelle. Diese Modelle bestehen aus vier grundlegenden Bausteinen: einem Videopräprozessor für aggressive raum-zeitliche Downsampling, einem räumlichen Qualitätsanalysator, einem optionalen zeitlichen Qualitätsanalysator und einem Qualitätsregressor.
Die Autoren trainieren zehn Varianten dieser BVQA-Modelle auf den acht VQA-Datensätzen und vergleichen ihre Leistung. Sie stellen fest, dass fast alle Datensätze in unterschiedlichem Maße unter dem Problem des "leichten Datensatzes" leiden, bei dem die Videoqualität oft durch einfache BIQA-Lösungen abgeschätzt werden kann. Um diese Behauptung weiter zu unterstützen, untersuchen die Autoren auch die Generalisierungsfähigkeit ihrer Modelle und führen eine umfangreiche Ablation der BVQA-Designoptionen durch.
Die Ergebnisse werfen Zweifel an den derzeitigen Fortschritten in der BVQA auf und geben gleichzeitig Hinweise auf bewährte Praktiken für den Aufbau der nächsten Generation von VQA-Datensätzen und -Modellen.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Wei Sun,Wen ... kl. arxiv.org 04-04-2024
https://arxiv.org/pdf/2307.13981.pdfDybere Forespørgsler