Khái niệm cốt lõi
Diese Studie untersucht verschiedene Methoden zur Datenerweiterung in der natürlichen Sprachverarbeitung, um die Leistung von Hassrede-Erkennungsmodellen zu verbessern. Die Ergebnisse zeigen, dass die Verwendung von Large Language Models wie GPT-3 die Leistung im Vergleich zu traditionellen Methoden deutlich steigern kann.
Tóm tắt
Diese Studie untersucht verschiedene Methoden zur Datenerweiterung in der natürlichen Sprachverarbeitung (NLP), um die Leistung von Hassrede-Erkennungsmodellen zu verbessern. Die Autoren vergleichen etablierte Ansätze wie Synonym-Ersetzung, Rückübersetzung und BERT-basierte kontextuelle Erweiterung mit dem Einsatz von Large Language Models (LLMs) wie GPT-3.
Die Hauptergebnisse sind:
- Traditionelle Methoden wie Rückübersetzung zeigen geringe Raten an Labeländerungen (0,3-1,5%), aber BERT-basierte kontextuelle Synonym-Ersetzung führt zu höheren Raten (über 6%).
- Der vorgeschlagene BERT-basierte kontextuelle Kosinus-Ähnlichkeits-Filter reduziert die Labeländerungen auf nur 0,05% und verbessert die F1-Leistung um 0,7%.
- Die Erweiterung der Daten mit GPT-3 vermeidet Overfitting bei bis zu siebenfacher Datenerweiterung, verbessert den Embedding-Raum um 15% und steigert den F1-Score um 1,4% gegenüber traditionellen Methoden und um 0,8% gegenüber der BERT-basierten Methode.
Diese Ergebnisse zeigen die erheblichen Vorteile des Einsatzes von LLMs wie GPT-3 für die Datenerweiterung in der NLP, insbesondere für Hassrede-Erkennungsaufgaben.
Thống kê
Die Rückübersetzung zeigt geringe Raten an Labeländerungen von 0,3-1,5%.
BERT-basierte kontextuelle Synonym-Ersetzung führt zu Raten an Labeländerungen von über 6%.
Der BERT-basierte kontextuelle Kosinus-Ähnlichkeits-Filter reduziert die Labeländerungen auf nur 0,05%.
Die Erweiterung der Daten mit GPT-3 verbessert den Embedding-Raum um 15% und steigert den F1-Score um 1,4% gegenüber traditionellen Methoden und um 0,8% gegenüber der BERT-basierten Methode.
Trích dẫn
"Die Ergebnisse heben die erheblichen Vorteile des Einsatzes von LLMs wie GPT-3 für die Datenerweiterung in der NLP hervor, insbesondere für Hassrede-Erkennungsaufgaben."
"Die Verwendung von Large Language Models wie GPT-3 in der Datenerweiterung zeigt einen erheblichen Fortschritt in der Leistung von Maschinenlernmodellen."