Große Sprachmodelle können effektiv räumlich-zeitliche Sequenzen modellieren, wenn man alle visuellen Tokens direkt in das Sprachmodell einspeist.