RESSA nutzt Cross-Modality-Feinabstimmung und SparseLoRA, um die Leistung von geprünten Vision-Sprache-Modellen signifikant zu verbessern.