Der Videobadminton-Datensatz wurde sorgfältig aus hochwertigem Badminton-Videomaterial zusammengestellt. Er umfasst 18 verschiedene Kategorien von Badmintonaktionen mit insgesamt 7.822 Clips, die 145 Minuten Videomaterial abdecken. Der Datensatz wurde durch eine gründliche Evaluierung führender Methoden der Videoerkennung analysiert, um Erkenntnisse zu gewinnen, die die weitere Forschung auf dem Gebiet der Aktionserkennung, insbesondere im Sportkontext, anregen sollen.
Der Erstellungsprozess des Datensatzes beinhaltete die Aufnahme von Trainingsspielen, die Vorverarbeitung der Videos zur Korrektur von Verzerrungen, eine sorgfältige manuelle Beschriftung der Aktionen durch erfahrene Badmintonspieler und -trainer sowie eine abschließende Überprüfung der Beschriftungen. Die Analyse des Datensatzes umfasste die Berechnung der Rahmenentropie und der durchschnittlichen Merkmalsunterschiede zwischen aufeinanderfolgenden Frames, um die räumliche Komplexität und zeitliche Dynamik der Videoinhalte zu verstehen.
Die Evaluierung verschiedener Methoden der Videoaktionserkennung, darunter R(2+1)D, SlowFast, TimeSformer, Swim, MViT-V2, ST-GCN und PoseC3D, auf dem Videobadminton-Datensatz zeigte, dass SlowFast die besten Ergebnisse in Bezug auf Genauigkeit und Konsistenz über verschiedene Aktionsklassen hinweg erzielte. Die Erkenntnisse aus dieser Studie sollen die weitere Forschung auf dem Gebiet der Aktionserkennung, insbesondere im Sportkontext, anregen.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Qi Li,Tzu-Ch... klokken arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12385.pdfDypere Spørsmål