Das Papier stellt ein Modell namens PDDM-AL vor, das aktives Lernen mit einem vortrainierten Transformer-Modell kombiniert, um das Problem der Datendeduplizierung anzugehen.
Zunächst wird der Datensatz vorverarbeitet, indem die Daten serialisiert und wichtige Informationen hervorgehoben werden. Dann wird das vortrainierte BERT-Modell verwendet und mit aktivem Lernen kombiniert, um die Leistung iterativ zu verbessern. Dabei wird auch die R-Drop-Methode zur Datenerweiterung eingesetzt, um die Robustheit des Modells zu erhöhen.
Die Experimente zeigen, dass PDDM-AL die Leistung früherer Methoden in Bezug auf Präzision, Rückruf und F1-Wert übertrifft. Insbesondere ermöglicht das aktive Lernen eine schnelle Verbesserung der Genauigkeit mit nur wenigen manuell gekennzeichneten Daten.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Xinyao Liu,S... at arxiv.org 03-20-2024
https://arxiv.org/pdf/2308.00721.pdfDeeper Inquiries