Skalierung von Videogrundlagenmodellen für multimodale Videoanalyse
InternVideo2 ist ein leistungsfähiges Videogrundlagenmodell, das durch ein progressives Lernschema mit maskierter Rekonstruktion, kreuzmodaler kontrastiver Lernen und Vorhersage des nächsten Tokens Spitzenleistungen in einer Vielzahl von Video- und Audioaufgaben erzielt.