Effizientes Verständnis langer Videos durch große Sprachmodelle
Wir präsentieren LongVLM, ein einfaches und effektives VideoLLM, das sowohl lokale als auch globale Informationen in langen Videos erfasst, um ein umfassendes Verständnis zu ermöglichen.