Die Studie untersucht das Problem der Redundanz in bestehenden Datensätzen für visuelle Anweisungen, die für das Feintuning von multimodalen Sprachmodellen (MLLMs) verwendet werden. Durch empirische Untersuchungen wurde festgestellt, dass es eine erhebliche Redundanz in diesen Datensätzen gibt, wobei der Redundanzgrad zwischen den verschiedenen Aufgabenanweisungen variiert.
Um die Redundanz zu beseitigen, wurde ein neuer Ansatz namens TIVE entwickelt. Dieser schätzt zunächst den Datenwert auf Task-Ebene und Instanz-Ebene, um dann den Anteil der Aufgabenanweisungen und die repräsentativen Instanzen für die Erstellung einer kleineren Teilmenge von visuellen Anweisungen zu bestimmen.
Die Experimente zeigen, dass mit Hilfe der Datenauswahl durch TIVE nur etwa 7,5% der Daten verwendet werden müssen, um eine vergleichbare Leistung wie das Modell mit dem gesamten Datensatz zu erzielen, und in vier von sieben Benchmarks sogar eine bessere Leistung erzielt wird.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies