ビデオ大規模言語モデル（VLLM）の推論効率を高めるために、トークン圧縮手法DyCokeを提案する。DyCokeは、訓練不要なプラグアンドプレイ方式で、時間的冗長性を削減するトークンマージと、空間的冗長性を動的に削減するKVキャッシュプルーニングの2段階で構成され、高速化とメモリ削減を実現しながらも、従来手法を超える性能を実現する。


coremsg

高速なビデオ大規模言語モデルを実現するトークンの動的圧縮-dycoke


高速なビデオ大規模言語モデルを実現するトークンの動的圧縮：DyCoke