Effiziente und leistungsfähige teilweise relevante Videosuche durch Vision-Sprache-Modelle, die "Super-Bilder" erlernen
Vision-Sprache-Modelle können "Super-Bilder" effizient und leistungsfähig für die teilweise relevante Videosuche nutzen, indem sie die Anzahl der visuellen Codierungen reduzieren und gleichzeitig die Leistung verbessern.