Effizientes Zusammenführen von Token für leichtgewichtige Video-Transformatoren ohne zusätzliches Training
Das vorgeschlagene vid-TLDR-Verfahren ermöglicht eine effiziente Verarbeitung von Video-Transformatoren, indem es die Hintergrundtokens ohne zusätzliches Training zusammenführt und die Informativität der Vordergrundobjekte hervorhebt.