핵심 개념
Tokenisierung in Sprachmodellen beeinflusst die Leistung und sollte sich an der kognitiven Verarbeitung menschlicher Sprache orientieren.
통계
Die Anzahl der Typen in BPE beträgt 4,7% der Wörter, während die Anzahl der Tokens ungefähr gleich ist (111%).
Die Anzahl der Typen in Zeichen beträgt 0,2% der Wörter, aber die Anzahl der Tokens beträgt 550%.
인용구
"Tokenisierung beeinflusst die Leistung von Sprachmodellen und sollte sich an der kognitiven Verarbeitung menschlicher Sprache orientieren."