Die Studie präsentiert DiLM, einen neuartigen Ansatz zur Datensatzdestillation für Textklassifizierungsaufgaben. Im Gegensatz zu bisherigen Methoden, die synthetische Proben als Worteinbettungssequenzen optimieren, generiert DiLM stattdessen informative synthetische Textproben mithilfe eines Sprachmodells.
Zunächst wird das Sprachmodell trainiert, um Proben zu generieren, die der Verteilung des Originaldatensatzes entsprechen. Anschließend wird das Modell durch Gradientenanpassung verfeinert, um Proben zu erzeugen, die für das Training von Klassifikationsmodellen informativer sind als die Originalproben.
Um die Diskretheit von Text zu überwinden, verwendet DiLM eine differenzierbare Rückwärtspropagierung über Generierungswahrscheinlichkeiten. Außerdem führt DiLM zwei Techniken ein, um die Leistung zu verbessern: eine repräsentative Lehrerkraft für den Gradientenabgleich und eine diverse Mini-Batch-Stichprobenentnahme während des Trainings.
Die Experimente zeigen, dass die von DiLM destillierten synthetischen Datensätze die Leistung von Basislinien-Kernsetauswahlmethoden übertreffen. Darüber hinaus erzielen sie bemerkenswerte Verallgemeinerungsleistungen beim Training verschiedener Modelltypen und beim In-Context-Lernen großer Sprachmodelle, was den Vorteil von textbasierten destillierten Datensätzen gegenüber einbettungsbasierten Methoden unterstreicht.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Aru Maekawa,... في arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00264.pdfاستفسارات أعمق