Centrala begrepp
Ein einheitliches Vortrainingsmodell für Sprache, das unstrukturierte, halbstrukturierte und gut strukturierte Texte in einem gemeinsamen Darstellungsraum modelliert, um domänenspezifisches heterogenes Wissen zu erfassen.
Sammanfattning
Der Artikel stellt ein Heterogenes Wissens-Sprachmodell (HKLM) vor, das unstrukturierte, halbstrukturierte und gut strukturierte Texte in einem gemeinsamen Darstellungsraum modelliert.
Für unstrukturierte Texte wird das Ziel der maskierten Sprachmodellierung (MLM) verwendet, um das domänenspezifische Wissen zu erlernen. Für halbstrukturierte Texte wird ein Titel-Matching-Training (TMT) vorgeschlagen, um zu klassifizieren, ob der Titel zum Absatz passt. Für gut strukturierte Texte wird eine Triple-Klassifizierung (TC) verwendet, um zu klassifizieren, ob das Wissenstripel modifiziert wurde.
Die Experimente zeigen, dass das HKLM-Modell mit nur 1/4 der Daten im Vergleich zum reinen Vortraining auf Textdaten bessere Ergebnisse erzielt. Das Modell wurde auch auf allgemeine Domänen übertragen und erzielte Leistungsverbesserungen auf dem XNLI-Datensatz.
Statistik
Mit nur 1/4 der Daten erzielt das HKLM-Modell bessere Ergebnisse als das reine Vortraining auf Textdaten.
Das HKLM-Modell wurde auch auf allgemeine Domänen übertragen und erzielte Leistungsverbesserungen auf dem XNLI-Datensatz.
Citat
"Bestehende Technologien erweitern BERT aus verschiedenen Perspektiven, z.B. durch das Entwerfen unterschiedlicher Vortrainingsziele, unterschiedlicher semantischer Granularitäten und unterschiedlicher Modellarchitekturen. Nur wenige Modelle berücksichtigen die Erweiterung von BERT aus verschiedenen Textformaten."
"Unser Ziel ist es, eine effektive Möglichkeit zu finden, um unstrukturierte Absätze, halbstrukturierte Titel und gut strukturierte Wissenstripel zu modellieren und sie miteinander interagieren zu lassen."