핵심 개념
Wir entwickeln effiziente Abtastmethoden, um Videofragebeantworung auf Bild-Text-Modellen zu verbessern, ohne die Leistung zu beeinträchtigen.
초록
In diesem Artikel wird ein effizientes Videofragebeantworungssystem auf Bild-Text-Modellen vorgestellt. Die Autoren identifizieren zwei Hauptprobleme bei bestehenden Ansätzen: 1) einfache und unbeabsichtigte Abtaststrategien, die möglicherweise wichtige Schlüsselframes übersehen, und 2) das Abtasten einer großen Anzahl von Frames in geteilte Gruppen, was die Rechenressourcen nicht bewältigen können.
Um diese Probleme zu lösen, schlagen die Autoren zwei neue Abtastmethoden vor:
Most Implied Frames (MIF): MIF verwendet ein Bildunterschriftenmodell und ein Bewertungsmodell, um die Frames mit den höchsten Übereinstimmungsscores zwischen Frage und Bildunterschrift auszuwählen. Dies ist eine Verallgemeinerung früherer frageorientierter Abtastmethoden.
Most Dominant Frames (MDF): MDF nutzt den inhärenten Bildencoder des Bild-Text-Modells, um die Frames mit den geringsten Bewegungen auszuwählen, da die meisten Antworten aus statischen Szenen abgeleitet werden können.
Die Autoren führen umfangreiche Experimente auf vier öffentlichen Datensätzen und drei Bild-Text-Modellen durch. Die Ergebnisse zeigen, dass sowohl MIF als auch MDF die Leistung der Bild-Text-Modelle verbessern können, wobei MDF effizienter ist. Dies unterstützt die Hypothese der Autoren, dass frageorientierte Abtastung nicht erforderlich ist.
통계
Die Autoren berichten, dass die Erhöhung der Anzahl der Eingabeframes die Genauigkeit verbessert, unabhängig von der verwendeten Abtastmethode.
인용구
Keine relevanten Zitate gefunden.