Concepts de base
Tokenisierung in Sprachmodellen beeinflusst die Leistung und sollte sich an der kognitiven Verarbeitung menschlicher Sprache orientieren.
Stats
Die Anzahl der Typen in BPE beträgt 4,7% der Wörter, während die Anzahl der Tokens ungefähr gleich ist (111%).
Die Anzahl der Typen in Zeichen beträgt 0,2% der Wörter, aber die Anzahl der Tokens beträgt 550%.
Citations
"Tokenisierung beeinflusst die Leistung von Sprachmodellen und sollte sich an der kognitiven Verarbeitung menschlicher Sprache orientieren."