Effizienter Datenwert-Schätzung für das Feintuning von visuellen Anweisungen
Durch die Schätzung des Datenwerts auf Task-Ebene und Instanz-Ebene können wir eine kleinere, aber aussagekräftige Teilmenge von visuellen Anweisungen für das effiziente Feintuning von multimodalen Sprachmodellen auswählen.