Core Concepts
Durch die Ergänzung von hochqualitativen überwachten Grenzsignalen zu BABERT kann Semi-BABERT die Leistung auf verschiedenen chinesischen Sequenzmarkierungsaufgaben sowie anderen Sprachverständnisaufgaben deutlich verbessern.
Abstract
Dieser Artikel stellt Semi-BABERT vor, ein verbessertes Sprachmodell für chinesische Sequenzmarkierungsaufgaben. Im Gegensatz zu BABERT, das nur auf unüberwachten statistischen Grenzsignalen basiert, kombiniert Semi-BABERT diese mit hochqualitativen überwachten Grenzsignalen aus einem Lexikon.
Zunächst wird ein großer Lexikon-Datensatz aus offenen Quellen erstellt und durch regelbasiertes Filtern bereinigt. Dann wird ein span-basierter Grenzerkennungsansatz mit Positiv-Unlabeled-Lernen verwendet, um die Grenzsignale in das Vortraining von Semi-BABERT einzubinden.
Umfangreiche Experimente auf 13 Sequenzmarkierungsdatensätzen für Wortschatzanalyse, Wortartenerkennung und Entitätenerkennung zeigen, dass Semi-BABERT die Leistung im Vergleich zu anderen Sprachmodellen deutlich verbessert, sowohl auf den Sequenzmarkierungsaufgaben als auch auf einer Reihe anderer chinesischer Sprachverständnisaufgaben. Darüber hinaus wird eine neuartige "Boundary Information Metric" vorgestellt, die die Grenzerkennungsfähigkeit von Sprachmodellen ohne aufgabenspezifisches Finetuning effizient quantifizieren kann.
Stats
Die Lexikon-Datenbank umfasst 30 Millionen Wörter nach regelbasierter Filterung.
Das Trainingscorpus für Semi-BABERT umfasst 3 Milliarden Token und 62 Millionen Sätze.
Quotes
"Durch die Ergänzung von hochqualitativen überwachten Grenzsignalen zu BABERT kann Semi-BABERT die Leistung auf verschiedenen chinesischen Sequenzmarkierungsaufgaben sowie anderen Sprachverständnisaufgaben deutlich verbessern."
"Die Einbeziehung von Grenzeninformationen kann den Mangel an Trainingsdaten kompensieren."