核心概念
Die Studie untersucht die Effektivität verschiedener Textprobenahme-Methoden zum Feinabstimmen des SentenceBERT-Modells, um die Leistungseinbußen durch Konzeptdrift in Textströmen zu mindern.
摘要
Die Studie untersucht verschiedene Textprobenahme-Methoden, um das SentenceBERT-Modell effizient an Textströme anzupassen und so die Auswirkungen von Konzeptdrift zu reduzieren.
Die Hauptergebnisse sind:
- Die Wahl der Verlustfunktion ist entscheidend für die Leistung des Textklassifikations-Tasks. Die Batch All Triplets Loss (BATL) und Softmax Loss (SL) Funktionen erwiesen sich als am geeignetsten.
- Die vorgeschlagene WordPieceToken-Ratio-Probenahme-Methode, insbesondere unter Berücksichtigung der Klassen, konnte die informativsten Texte auswählen und so die Leistung nach dem Feinabstimmen verbessern.
- Die Laufzeiten der Feinabstimmung waren vergleichbar mit dem Baseline-Modell ohne Update, was auf die Praktikabilität des Ansatzes hindeutet.
統計資料
Die Studie verwendet zwei Textstream-Datensätze, Airbnb und Yelp, mit Zeitstempeln, um Konzeptdrift zu simulieren.
引述
Keine relevanten Zitate identifiziert.