Tokenisierung ermöglicht es großen Sprachmodellen, einfache stochastische Quellen nahezu optimal zu modellieren, auch wenn die Modelle ohne Tokenisierung nur unigram-Modelle lernen.