toplogo
Sign In

Auswirkungen von Videokompressions-Artefakten auf die visuelle Wahrnehmung von Fisheye-Kameras bei Aufgaben der Fahrzeugautomatisierung


Core Concepts
Die Studie zeigt, dass eine Kompression von Fisheye-Kamerabildern um den Faktor 10 ohne signifikanten Leistungsabfall möglich ist und sogar Kompressionsraten über 80 nur zu einem Leistungsrückgang von 1-2% führen. Dafür wird eine neuartige zonale Metrik vorgestellt, die die Auswirkungen der Kompression auf die stark verzerrten Randbereiche des Bildes berücksichtigt.
Abstract
Die Studie untersucht die Auswirkungen von verlustbehafteter Videokompression auf Objekterkennungsaufgaben mit Fisheye-Kameras, wie sie in Fahrzeugsystemen zur Rundumsicht eingesetzt werden. Zunächst wird der Kompressionsgewinn verschiedener Videocodecs (AVC, HEVC) auf Fisheye-Datensätzen (Woodscape, FishEye8K) analysiert. Dabei zeigt sich, dass Kompressionsraten über 50:1 möglich sind, wenn die Bewegungsmodelle der Codecs die Kamerabewegung gut abbilden können. Anschließend wird der Einfluss der Kompression auf die Objekterkennung mit YOLOv7 untersucht. Dabei wird deutlich, dass die Leistung bis zu einem Kompressionsparameter (QP) von 20 kaum beeinträchtigt wird. Bei höheren Kompressionsraten nimmt die Genauigkeit (mAP) jedoch stärker ab. Um die Auswirkungen auf die stark verzerrten Randbereiche des Fisheye-Bildes besser zu erfassen, wird eine zonale mAP-Metrik eingeführt. Diese zeigt, dass die Kompression die Objekterkennung in den Randbereichen deutlich stärker beeinträchtigt als im Bildmittelpunkt. Abschließend wird ein verbessertes Bewegungsmodell für Videocodecs vorgestellt, das die Epipolargeometrie der Fisheye-Kamera nutzt. Damit lässt sich die Vorhersagegenauigkeit um 34% steigern, was zu einer weiteren Verbesserung der Kompressionsraten führen kann.
Stats
Die Kompressionsrate (CR) bei QP 30 beträgt für den Woodscape-Datensatz: HEVC-Intra: 43,3 HEVC-Main: 51,2 AVC: 41,7 Für den FishEye8K-Datensatz: HEVC-Intra: 14,5 HEVC-Main: 88,6 AVC: 74,1
Quotes
"Insbesondere bei Frontkamera-Bewegung führt die epipolargeometriegesteuerte Vorhersage, die Kameraintrinsik, Extrinsik und tatsächliche Bewegung berücksichtigt, zu einer verbesserten Vorhersage." "Eine effiziente Methode zum Signalisieren des verbesserten Modells ist wünschenswert, um den Overhead für die Übertragung der Bewegungsinformationen zu vermeiden."

Deeper Inquiries

Wie lässt sich das vorgestellte Bewegungsmodell für Videocodecs weiter verbessern, um auch komplexere Kamerabewegungen und dynamische Objekte in der Szene effizient zu erfassen?

Um das vorgestellte Bewegungsmodell für Videocodecs weiter zu verbessern und auch komplexere Kamerabewegungen sowie dynamische Objekte in der Szene effizient zu erfassen, könnten folgende Ansätze verfolgt werden: True Local Affine Model: Ein lokales adaptives Modell, das räumlich variierende Kameraverzerrungen unterstützt, wäre wünschenswert, um die zeitliche Vorhersage zu verbessern und somit die Kompression zu optimieren. Effiziente Signalisierung des verbesserten Modells: Es ist wichtig, eine effiziente Methode zur Signalisierung des verbesserten Modells zu entwickeln, um den Overhead bei der Übertragung der Bewegungsinformationen zu vermeiden. Epipolengeführte Suche: Eine effiziente Methode zur Bestimmung der Bewegungsparameter, wie die epipolengeführte Suche, kann den Suchraum reduzieren und die Genauigkeit der Bewegungsvorhersage verbessern. Datensatz: Um die Entwicklung eines Codecs für diese Anwendungen voranzutreiben, sollte die Community einen Datensatz mit echter Videobewegung (15 fps oder 30 fps) und signifikanter Kamerabewegung erstellen, im Gegensatz zu den bisherigen Datensätzen, die diese Aspekte nicht ausreichend abdecken. Durch die Implementierung dieser Verbesserungen könnte das Bewegungsmodell für Videocodecs besser auf die Anforderungen von Fisheye-Kameras in Fahrzeuganwendungen zugeschnitten werden.

Wie könnte ein öffentlicher Benchmark-Datensatz aussehen, der die Herausforderungen von Fisheye-Kameras in Fahrzeuganwendungen realistisch abbildet?

Ein öffentlicher Benchmark-Datensatz, der die Herausforderungen von Fisheye-Kameras in Fahrzeuganwendungen realistisch abbildet, sollte folgende Merkmale aufweisen: Echte Videobewegung: Der Datensatz sollte echte Videobewegung enthalten, um die Herausforderungen von dynamischen Szenen und Kamerabewegungen realistisch zu erfassen. Vielfalt der Szenarien: Es sollten verschiedene Szenarien abgedeckt werden, darunter städtische Umgebungen, Autobahnen, Parkplätze usw., um die Vielfalt der Anwendungen von Fisheye-Kameras widerzuspiegeln. Annotationen: Der Datensatz sollte detaillierte Annotationen für Objekte in der Szene enthalten, um die Leistung von Objekterkennungs- und Tracking-Algorithmen zu bewerten. Fischaugenperspektive: Es ist wichtig, dass der Datensatz speziell auf die Herausforderungen der Fischaugenperspektive zugeschnitten ist, einschließlich der hohen radialsymmetrischen Verzerrung. Große Datenmenge: Um die Trainings- und Testanforderungen zu erfüllen, sollte der Datensatz eine ausreichend große Datenmenge enthalten, um die Entwicklung und Evaluierung von Algorithmen zu unterstützen. Durch die Bereitstellung eines solchen Benchmark-Datensatzes könnten Forscher und Entwickler ihre Algorithmen für Fisheye-Kameras in Fahrzeuganwendungen validieren und vergleichen.

Wie könnte ein öffentlicher Benchmark-Datensatz aussehen, der die Herausforderungen von Fisheye-Kameras in Fahrzeuganwendungen realistisch abbildet?

Ein öffentlicher Benchmark-Datensatz, der die Herausforderungen von Fisheye-Kameras in Fahrzeuganwendungen realistisch abbildet, sollte folgende Merkmale aufweisen: Echte Videobewegung: Der Datensatz sollte echte Videobewegung enthalten, um die Herausforderungen von dynamischen Szenen und Kamerabewegungen realistisch zu erfassen. Vielfalt der Szenarien: Es sollten verschiedene Szenarien abgedeckt werden, darunter städtische Umgebungen, Autobahnen, Parkplätze usw., um die Vielfalt der Anwendungen von Fisheye-Kameras widerzuspiegeln. Annotationen: Der Datensatz sollte detaillierte Annotationen für Objekte in der Szene enthalten, um die Leistung von Objekterkennungs- und Tracking-Algorithmen zu bewerten. Fischaugenperspektive: Es ist wichtig, dass der Datensatz speziell auf die Herausforderungen der Fischaugenperspektive zugeschnitten ist, einschließlich der hohen radialsymmetrischen Verzerrung. Große Datenmenge: Um die Trainings- und Testanforderungen zu erfüllen, sollte der Datensatz eine ausreichend große Datenmenge enthalten, um die Entwicklung und Evaluierung von Algorithmen zu unterstützen. Durch die Bereitstellung eines solchen Benchmark-Datensatzes könnten Forscher und Entwickler ihre Algorithmen für Fisheye-Kameras in Fahrzeuganwendungen validieren und vergleichen.
0