Conceitos Básicos
Wir führen eine neuartige domänengeführte Maskierungsstrategie für maskierte Autoenkodierer ein, um robuste Merkmalsextraktionen in Sportvideos mit Bewegungsunschärfe zu ermöglichen. Unser spatio-temporales Netzwerk übertrifft den aktuellen Stand der Technik bei der Erkennung von Trikotummern in drei großen Sportdatensätzen.
Resumo
Die Autoren stellen einen neuartigen Ansatz zur eindeutigen Spieleridentifikation in Sportvideos vor. Kernpunkt ist die Einführung einer domänengeführten Maskierungsstrategie für maskierte Autoenkodierer (d-MAE), um robuste Merkmalsextraktionen in Szenarien mit Bewegungsunschärfe zu ermöglichen.
Das Verfahren besteht aus mehreren Komponenten:
- d-MAE-Encoder: Anstatt zufällige Bildpatches zu maskieren, werden hier Bewegungsunschärfeeffekte auf zufällige Patches aufgebracht. Dies ermöglicht dem Modell, effektive visuelle Darstellungen unter Berücksichtigung der in Sportdaten weit verbreiteten Bewegungsunschärfe zu extrahieren.
- Spatio-temporaler Transformer-Decoder: Die vom d-MAE-Encoder extrahierten räumlichen Merkmale werden an einen Transformer-Decoder weitergeleitet, um zeitliche Zusammenhänge zu erfassen und die Trikotnummer des Spielers vorherzusagen.
- Verbessertes Keyframe-Identifikationsmodul (KfID): Die Autoren erweitern das bestehende KfID-Modul, um zuverlässiger Keyframes mit sichtbaren Trikotnummern zu extrahieren und die Leistung des Gesamtmodells zu verbessern.
- Keyframe-Fusionsbasierte Datenerweiterung: Um die Herausforderungen mit begrenzten Trainingsdaten zu bewältigen, führen die Autoren eine strategische Fusionsmethode ein, um die Repräsentation der Trikotnummern in den Keyframes zu verbessern.
Die umfangreichen Experimente auf drei großen Sportdatensätzen zeigen, dass das vorgeschlagene Modell den aktuellen Stand der Technik deutlich übertrifft und die Leistung um bis zu 8,58 % verbessert. Die Ablationsanalysen unterstreichen die Wirksamkeit der domänengeführten Maskierungsstrategie und der verbesserten KfID-Komponente.
Estatísticas
Die Trikotnummer eines Spielers ist ein entscheidendes Merkmal für die eindeutige Spieleridentifikation in Sportvideos.
Präzise Spieleridentifikation ist von großer Bedeutung für verschiedene Anwendungen wie Leistungsanalyse und taktische Spielauswertung.
Herausforderungen wie Bewegungsunschärfe, Verdeckungen und geringe Auflösung erschweren die automatische Erkennung von Trikotnummern.
Citações
"Eindeutige Spieleridentifikation in Echtzeit-Übertragungsvideos ist eine grundlegende Komponente in der auf Vision basierenden Sportanalyse."
"Präzise Identifikation einzelner Spieler in Sportarten ist von großer Bedeutung in verschiedenen Kontexten wie Leistungsanalyse und taktische Spielauswertung."