Die Studie präsentiert SMART, eine neuartige Datenmischungsstrategie für das Instruction Tuning von Sprachmodellen. SMART modelliert das Datenmischungsproblem als eine Sequenz von zwei kardinalbeschränkten submodularen Maximierungsproblemen:
Die Experimente zeigen, dass SMART die traditionellen Mischungsstrategien wie beispielproportionale und gleichmäßige Mischung deutlich übertrifft. Darüber hinaus zeigt die Studie, dass in einem Budget-beschränkten Szenario die Zuweisung des Budgets auf eine Teilmenge repräsentativer Aufgaben einer Verteilung des Budgets auf alle Aufgaben überlegen ist.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by H S V N S Ko... at arxiv.org 03-14-2024
https://arxiv.org/pdf/2403.08370.pdfDeeper Inquiries