Effiziente Erkennung von kontextfremden multimodalen Inhalten durch den Einsatz von Chat-basierten großen Vision-Sprache-Modellen
Große Vision-Sprache-Modelle können die Genauigkeit der Erkennung von kontextfremden multimodalen Inhalten durch Feinabstimmung auf entsprechenden Datensätzen deutlich verbessern.