Ein interpretierbare Sprachrepository für das Verständnis von Langzeitvideos
Wir stellen ein Sprachrepository (LangRepo) vor, das iterativ aktualisiert wird und eine interpretierbare, textbasierte Darstellung von visuellen Informationen in Langzeitvideos bietet. LangRepo nutzt Schreib- und Leseoperationen, um redundante Informationen zu reduzieren und Mehrskalenrepräsentationen zu extrahieren, um die Leistung von Großsprachmodellen (LLMs) bei der Verarbeitung langer Kontexte zu verbessern.