Core Concepts
Tokenisierung in Sprachmodellen beeinflusst die Leistung und sollte sich an der kognitiven Verarbeitung menschlicher Sprache orientieren.
Stats
Die Anzahl der Typen in BPE beträgt 4,7% der Wörter, während die Anzahl der Tokens ungefähr gleich ist (111%).
Die Anzahl der Typen in Zeichen beträgt 0,2% der Wörter, aber die Anzahl der Tokens beträgt 550%.
Quotes
"Tokenisierung beeinflusst die Leistung von Sprachmodellen und sollte sich an der kognitiven Verarbeitung menschlicher Sprache orientieren."