Allgemeiner Rahmen zur universellen Videoanalyse: OmniViD
OmniViD ist ein generativer Rahmen, der verschiedene Videoaufgaben wie Aktionserkennung, Videobeschriftung, Videofragebeantwortung, dichte Videobeschriftung und visuelle Objektverfolgung in einem einheitlichen Ausgaberaum als Tokensequenzgenerierung behandelt.