Die Arbeit schlägt VL2V-ADiP vor, um die OOD-Generalisierung von Vision-Modellen zu verbessern, indem Vision-Sprachmodelle distilliert werden.