Core Concepts
Diese Studie untersucht die Auswirkungen der Schärfe auf Modelle wie die blinde Videoqualiätsbewertung (BVQA). Die Schärfe ist ein Maß für die Klarheit und Details des Videobildes. Die Studie verwendet bestehende Videoqualiätsdatenbanken wie CVD2014 und präsentiert eine vergleichende Studie der verschiedenen Maschinenlerning-Parameter wie SRCC und PLCC während des Trainings und Tests.
Abstract
Die Einführung erläutert die Bedeutung der Videoqualiätsbewertung (VQA) in der heutigen Zeit, in der Videos eine entscheidende Rolle in der Kommunikation spielen. Klassische Metriken wie SSIM und PSNR wurden durch maschinelle Lernverfahren wie Convolutional Neural Networks (CNNs) und Deep Neural Networks (DNNs) erweitert.
Verschiedene Studien wie BVQA haben gezeigt, dass DNN-basierte Ansätze leistungsfähig sind, um Effekte des menschlichen Sehsystems wie Inhaltsabhängigkeit und zeitliche Faktoren zu erfassen. BVQA-Modelle basieren oft auf Natürlichen Szenenstatistiken (NSS), die Abweichungen von statistischen Regelmäßigkeiten in natürlichen Szenen als Hinweise auf Bildstörungen nutzen.
In den letzten Jahren haben sich DNN-basierte BVQA-Modelle als vielversprechend erwiesen, um Einschränkungen klassischer NSS-basierter Modelle zu überwinden. Die Herausforderung ist es, große Datensätze mit subjektiven Qualitätsbewertungen zu erhalten, um DNNs effektiv zu trainieren.
Das vorgestellte BVQA-Modell verwendet einen mehrstufigen Ansatz mit Qualitäts-Vorab-Training, Bewegungswahrnehmung und einer Qualitätsvorhersage. Ein Schwerpunkt liegt auf der Untersuchung des Einflusses von Schärfemerkmalen auf das BVQA-Modell.
Der Datensatz CVD2014 mit 116 gestörten Videosequenzen und entsprechenden Referenzvideos wird verwendet. Die Videos wurden mit verschiedenen Störungen wie Kompressionsartefakte, Unschärfe, Rauschen und Blockbildung versehen. Subjektive Qualitätsbewertungen wurden durch Benutzerexperimente ermittelt.
Für das Training, die Validierung und den Test wurden 60%, 20% und 20% der Videos verwendet. Das Modell verwendet einen Schärfemerkmalsextraktor basierend auf einem vortrainierten ResNet18-Modell und einen Bewegungsmerkmalsextraktor basierend auf einem SlowFast-Netzwerk. Die extrahierten Merkmale werden fusioniert und zur Qualitätsvorhersage verwendet.
Die Ergebnisse zeigen, dass das Modell mit Schärfemerkmalsextraktor ähnliche Leistung wie das Originalmodell mit Raummerkmalsextraktor erzielt, aber die Leistung des Originalmodells nicht übertrifft. Dies deutet darauf hin, dass der Schärfemerkmalsextraktor gut mit dem BVQA-Modell funktioniert, aber weitere Optimierung erforderlich ist.
Mögliche zukünftige Forschungsrichtungen umfassen eine gründlichere Schulung des Schärfemerkmalsextraktors, die Verwendung größerer Videodatenbanken und die Integration des Schärfeextraktors als dritte Stufe in das Originalmodell anstelle des Ersatzes.
Stats
Die Studie verwendete 54 Videos aus dem CVD2014-Datensatz mit einer Auflösung von 720p und einer festen Bitrate von 2 Mbit/s.
Quotes
"Diese Studie verwendet die bestehenden Videoqualiätsdatenbanken wie CVD2014. Eine vergleichende Studie der verschiedenen Maschinenlerning-Parameter wie SRCC und PLCC während des Trainings und Tests werden präsentiert."
"Das vorgestellte BVQA-Modell verwendet einen mehrstufigen Ansatz mit Qualitäts-Vorab-Training, Bewegungswahrnehmung und einer Qualitätsvorhersage. Ein Schwerpunkt liegt auf der Untersuchung des Einflusses von Schärfemerkmalen auf das BVQA-Modell."