Perzeption, Chat und dann Anpassung: Multimodaler Wissenstransfer von Grundlagenmodellen für die Erkennung von Open-World-Videos
Grundlagenmodelle mit reichhaltigem Wissen werden für die Open-World-Videoerkennung genutzt, indem externes multimodales Wissen schrittweise integriert wird.