核心概念
Automatische Erstellung von Untertiteln für große Video-Datensätze durch Querschnittslehrermodelle.
摘要
Das Panda-70M-Datenset bietet präzise Untertitel für Videos durch automatische Annotation mit multimodalen Eingaben. Die automatische Pipeline nutzt verschiedene Lehrermodelle für die Untertitelung und zeigt verbesserte Leistungen in verschiedenen Aufgaben.
- Einführung von Panda-70M, einem großen Video-Datenset mit präzisen Untertiteln.
- Automatischer Ansatz zur Erstellung von Untertiteln durch Querschnittslehrermodelle.
- Wert des Datensatzes für Video-Untertitelung, Video- und Text-Retrieval sowie textgesteuerte Videoerzeugung.
統計資料
"Panda-70M bietet 70,8 Millionen Videos mit durchschnittlich 13,2 Wörtern pro Untertitel."
"HD-VILA-100M enthält 103 Millionen Videos mit durchschnittlich 32,5 Wörtern pro Untertitel."
"MSVD hat 1970 Videos mit durchschnittlich 8,7 Wörtern pro Untertitel."
引述
"Die Qualität der Daten und Annotationen begrenzt die Qualität eines Modells."
"Videos sind zeitaufwändiger zu annotieren als Bilder."