ビデオ大規模言語モデル(VLLM)の推論効率を高めるために、トークン圧縮手法DyCokeを提案する。DyCokeは、訓練不要なプラグアンドプレイ方式で、時間的冗長性を削減するトークンマージと、空間的冗長性を動的に削減するKVキャッシュプルーニングの2段階で構成され、高速化とメモリ削減を実現しながらも、従来手法を超える性能を実現する。