Core Concepts
TELEClass verbessert die hierarchische Textklassifizierung durch Taxonomieanreicherung und LLM-Verbesserung.
Abstract
Die TELEClass-Methode zielt darauf ab, die hierarchische Textklassifizierung mit minimaler Überwachung zu verbessern. Sie integriert Taxonomieanreicherung und nutzt LLMs für die hierarchische Labelstruktur. TELEClass besteht aus vier Hauptschritten: LLM-verbesserte Kernklassenannotation, Taxonomieanreicherung basierend auf dem Korpus, Kernklassenverfeinerung mit angereicherter Taxonomie und Textklassifizierungstraining mit pfadbasierter Datenanreicherung.
Hierarchische Textklassifizierung
- Ziel: Dokumente in mehrere Knoten einer Label-Taxonomie zu kategorisieren.
- Herausforderungen: Großer, strukturierter Labelraum und fein abgestufte Klassen.
TELEClass-Kernidee
- Automatische Anreicherung der Label-Taxonomie mit klassenindikativen Begriffen aus dem Korpus.
- Verwendung von LLMs für die Datenannotation und Erstellung maßgeschneiderter Daten für den hierarchischen Labelraum.
Experimente und Ergebnisse
- TELEClass übertrifft andere schwach überwachte Methoden auf zwei öffentlichen Datensätzen.
- TELEClass zeigt die Effektivität der Taxonomieanreicherung und der LLM-Verbesserung.
Stats
Hierarchische Textklassifizierung zielt darauf ab, Dokumente in mehrere Knoten einer Label-Taxonomie zu kategorisieren.
LLM wie GPT-4 und Llama2 haben in flacher Textklassifizierung starke Leistungen gezeigt.
Quotes
"TELEClass kann starke schwach überwachte hierarchische Textklassifikationsmethoden übertreffen."