Centrala begrepp
Das UniMD-Modell führt die Aufgaben der zeitlichen Handlungserkennung (TAD) und des Moment-Retrieval (MR) in einem einzigen Modell durch, um die gegenseitigen Vorteile zwischen den beiden Aufgaben zu nutzen.
Sammanfattning
Der Artikel stellt ein neues Aufgabenformat namens Moment Detection (MD) vor, das sowohl TAD als auch MR gleichzeitig adressiert. Dafür wird ein einheitliches Netzwerkmodell, UniMD, entwickelt, das eine gemeinsame Schnittstelle für Eingabe und Ausgabe der beiden Aufgaben etabliert. UniMD verwendet textuelle Einbettungen, um die Beziehung zwischen Aktionen und Ereignissen herzustellen, und nutzt zwei neuartige aufgabenabhängige Decoder, um einheitliche Klassifikations- und Zeitvorhersagen zu generieren.
Darüber hinaus untersucht der Artikel verschiedene Ansätze des aufgabenübergreifenden Lernens, um die gegenseitigen Vorteile zwischen TAD und MR zu verstärken. Die Experimente zeigen, dass der vorgeschlagene aufgabenübergreifende Lernansatz, insbesondere das synchronisierte Aufgabensampling, die Leistung beider Aufgaben deutlich verbessert und neue State-of-the-Art-Ergebnisse auf mehreren Benchmarks erzielt.
Statistik
Die meisten Beschreibungen im Moment-Retrieval (MR) beinhalten mehrere Aktionen aus der zeitlichen Handlungserkennung (TAD).
TAD kann MR mit mehr als 200% zusätzlichen Ereignisinstanzen anreichern, während MR TAD mit über 16.000 zusätzlichen Aktionsbeschreibungen versorgen kann.
Durch das gemeinsame Training können die Modelle sogar mit weniger Trainingsdaten (25% für MR, 50% für TAD) bessere Ergebnisse erzielen als dedizierte Modelle.
Citat
"Die meisten Beschreibungen in MR beinhalten mehrere Aktionen aus TAD."
"TAD kann MR mit mehr als 200% zusätzlichen Ereignisinstanzen anreichern, während MR TAD mit über 16.000 zusätzlichen Aktionsbeschreibungen versorgen kann."
"Durch das gemeinsame Training können die Modelle sogar mit weniger Trainingsdaten (25% für MR, 50% für TAD) bessere Ergebnisse erzielen als dedizierte Modelle."