Die Studie untersucht das Problem der Redundanz in bestehenden Datensätzen für visuelle Anweisungen, die für das Feintuning von multimodalen Sprachmodellen (MLLMs) verwendet werden. Durch empirische Untersuchungen wurde festgestellt, dass es eine erhebliche Redundanz in diesen Datensätzen gibt, wobei der Redundanzgrad zwischen den verschiedenen Aufgabenanweisungen variiert.
Um die Redundanz zu beseitigen, wurde ein neuer Ansatz namens TIVE entwickelt. Dieser schätzt zunächst den Datenwert auf Task-Ebene und Instanz-Ebene, um dann den Anteil der Aufgabenanweisungen und die repräsentativen Instanzen für die Erstellung einer kleineren Teilmenge von visuellen Anweisungen zu bestimmen.
Die Experimente zeigen, dass mit Hilfe der Datenauswahl durch TIVE nur etwa 7,5% der Daten verwendet werden müssen, um eine vergleichbare Leistung wie das Modell mit dem gesamten Datensatz zu erzielen, und in vier von sieben Benchmarks sogar eine bessere Leistung erzielt wird.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Zikang Liu,K... at arxiv.org 03-15-2024
https://arxiv.org/pdf/2403.09559.pdfDeeper Inquiries