PREGO ist ein zweigespaltenes Architekturmodell, das die Erkennung von Verfahrensschritten mit der Vorhersage von Schritten kombiniert. Der erste Zweig, der Schriterkennungszweig, analysiert Videoframes bis zu einem aktuellen Zeitpunkt t, um die vom Bediener durchgeführte Aktion zu klassifizieren. Der zweite Zweig, der Schritvorhersagezweig, ist dafür zuständig, die Aktion zum Zeitpunkt t basierend auf den Schritten bis t-1 vorherzusagen. Ein Fehler wird erkannt, wenn die aktuell erkannte Aktion nicht mit der vorhergesagten Aktion übereinstimmt, was auf eine Abweichung vom erwarteten Verfahren hinweist.
Um PREGO zu evaluieren, passen wir die Benchmarkdatensätze Assembly101 und Epic-tent an, um die neuartige Aufgabe der Online-Erkennung von Verfahrensfehlern zu unterstützen. Die angepassten Datensätze, Assembly101-O und Epic-tent-O, erfordern, dass das Modell erkennt, wann ein Verfahrensfehler auftritt, der das Verfahren beeinträchtigt.
Die Experimente zeigen, dass PREGO die Baseline-Methoden in Bezug auf Präzision, Rückruf und F1-Wert übertrifft. PREGO nutzt symbolisches Schlussfolgern, um den Kontext besser zu modellieren und Fehler genauer vorherzusagen als rein videobasierte Methoden. Darüber hinaus zeigen die Ergebnisse, dass die Genauigkeit der Schrittzuordnung ein Flaschenhals für die Gesamtleistung ist und dass weitere Verbesserungen in diesem Bereich das Potenzial haben, die Leistung von PREGO weiter zu steigern.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Alessandro F... at arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01933.pdfDeeper Inquiries