Eine interpretierbare Sprachrepository, die iterativ aktualisiert wird und eine mehrskalierende Darstellung von Videoinformationen ermöglicht, um die Leistung von Großsprachmodellen bei der Verarbeitung von Langzeitvideos zu verbessern.
Wir stellen ein Sprachrepository (LangRepo) vor, das iterativ aktualisiert wird und eine interpretierbare, textbasierte Darstellung von visuellen Informationen in Langzeitvideos bietet. LangRepo nutzt Schreib- und Leseoperationen, um redundante Informationen zu reduzieren und Mehrskalenrepräsentationen zu extrahieren, um die Leistung von Großsprachmodellen (LLMs) bei der Verarbeitung langer Kontexte zu verbessern.
Eine interpretierbare Sprachrepräsentation, die iterativ aktualisiert wird und eine mehrskaligte Darstellung von Videoinformationen ermöglicht, um die Leistung von Großsprachmodellen bei der Verarbeitung von Langzeitvideos zu verbessern.