Core Concepts
Diese Studie präsentiert eine umfassende Analyse von Datenaugmentierungstechniken für menschenzentrierte Computervisionaufgaben, um die erheblichen Herausforderungen von Overfitting und begrenzten Trainingsdaten in diesen Bereichen anzugehen.
Abstract
Diese Studie bietet einen umfassenden Überblick über Datenaugmentierungsmethoden für menschenzentrierte Computervisionaufgaben wie Person ReID, Personensegmentierung, Körperpose-Schätzung und Fußgängererkennung. Die Methoden werden in zwei Hauptkategorien eingeteilt: Datenerzeugung und Datenperturbation.
Datenerzeugung umfasst Techniken wie grafische Engine-basierte Erzeugung, generative Modell-basierte Erzeugung und Datenrekombination. Datenperturbation unterteilt sich in bildebene und menschenebene Perturbationen.
Jede Methode ist auf die spezifischen Anforderungen menschenzentrierter Aufgaben zugeschnitten, wobei einige Methoden über mehrere Bereiche anwendbar sind. Die Studie bietet tiefe Einblicke in den Einfluss dieser Augmentierungstechniken und hebt die Nuancen jeder Methode hervor. Außerdem werden offene Probleme und zukünftige Forschungsrichtungen diskutiert, wie die Integration fortschrittlicher generativer Modelle zur Erstellung realistischerer und vielfältigerer Trainingsdaten.
Stats
Die Verwendung von Datenaugmentierung kann die Leistung von Modellen für menschenzentrierte Computervisionaufgaben deutlich verbessern.
Beispielsweise erreicht das DG-Net-Modell mit Datenaugmentierung eine mAP von 86,0% und eine Rank-1-Genauigkeit von 94,8% auf dem Market1501-Datensatz, im Vergleich zu 62,1% mAP und 82,3% Rank-1 für das Basismodell SVDNet.
Ähnlich zeigt das PoseTrans-Modell mit Datenaugmentierung auf dem MS-COCO-Datensatz eine AP von 75,6%, AP50 von 91,1%, AP75 von 83,0% und AR von 81,1%, im Vergleich zu 74,4% AP, 90,5% AP50, 81,9% AP75 und 79,8% AR für das Basismodell HRNet-W32.
Quotes
"Diese Studie präsentiert eine umfassende Analyse von Datenaugmentierungstechniken in menschenzentrierten Computervisionaufgaben, ein Novum in diesem Bereich."
"Wir sind die Ersten, die eine umfassende Übersicht über Datenaugmentierungsmethoden für menschenzentrierte Computervisionaufgaben durchführen und die einzigartigen Merkmale dieser Methoden in Bezug auf menschenzentrierte Aufgaben hervorheben."