Grunnleggende konsepter
FastSpell ist ein Sprachidentifikator, der die Entscheidungen eines vorherigen Sprachidentifikators überprüft und verfeinert, um insbesondere ähnliche und verwandte Sprachen besser unterscheiden zu können.
Sammendrag
FastSpell wurde entwickelt, um Probleme bei der Sprachidentifikation von webbasierten Inhalten zu lösen, die mit herkömmlichen Sprachidentifikatoren auftreten können. Insbesondere hat FastSpell folgende Ziele:
- Bessere Unterscheidung zwischen ähnlichen oder eng verwandten Sprachen, die von anderen Werkzeugen oft verwechselt werden, wie Spanisch und Galicisch oder die Bokmål- und Nynorsk-Varianten des Norwegischen.
- Korrekte Identifikation von Sprachen, die in zwei oder mehr Schriftsystemen verwendet werden, wie Serbokroatisch, das sowohl in lateinischer als auch in kyrillischer Schrift geschrieben wird.
- Erkennung neuer oder bisher unbekannter Sprachen oder Sprachvarianten, die von anderen Werkzeugen ignoriert oder falsch zugeordnet werden.
FastSpell verwendet dafür einen zweistufigen Ansatz: Zunächst wird mit fastText eine erste Sprachvorhersage getroffen. Nur wenn diese Vorhersage zu einer Sprache gehört, die der Zielsprache ähnlich ist, wird zusätzlich eine Rechtschreibprüfung mit Hunspell durchgeführt. Anhand des Anteils an Rechtschreibfehlern in den ähnlichen Sprachen wird dann die endgültige Sprachzuordnung getroffen.
FastSpell wurde entwickelt, um in großen, mehrsprachigen Datenkontexten eingesetzt zu werden, wie sie beispielsweise in den Projekten ParaCrawl, MaCoCu und HPLT vorkommen. Es ist als Open-Source-Werkzeug verfügbar und kann leicht an spezifische Anforderungen angepasst werden.
Statistikk
"Insbesondere hat FastSpell folgende Ziele: Bessere Unterscheidung zwischen ähnlichen oder eng verwandten Sprachen, die von anderen Werkzeugen oft verwechselt werden, wie Spanisch und Galicisch oder die Bokmål- und Nynorsk-Varianten des Norwegischen."
"FastSpell verwendet dafür einen zweistufigen Ansatz: Zunächst wird mit fastText eine erste Sprachvorhersage getroffen. Nur wenn diese Vorhersage zu einer Sprache gehört, die der Zielsprache ähnlich ist, wird zusätzlich eine Rechtschreibprüfung mit Hunspell durchgeführt."
"FastSpell wurde entwickelt, um in großen, mehrsprachigen Datenkontexten eingesetzt zu werden, wie sie beispielsweise in den Projekten ParaCrawl, MaCoCu und HPLT vorkommen."
Sitater
"FastSpell ist ein Sprachidentifikator, der die Entscheidungen eines vorherigen Sprachidentifikators überprüft und verfeinert, um insbesondere ähnliche und verwandte Sprachen besser unterscheiden zu können."
"Nur wenn diese Vorhersage zu einer Sprache gehört, die der Zielsprache ähnlich ist, wird zusätzlich eine Rechtschreibprüfung mit Hunspell durchgeführt."