المفاهيم الأساسية
ビデオ大規模言語モデル(VLLM)の推論効率を高めるために、トークン圧縮手法DyCokeを提案する。DyCokeは、訓練不要なプラグアンドプレイ方式で、時間的冗長性を削減するトークンマージと、空間的冗長性を動的に削減するKVキャッシュプルーニングの2段階で構成され、高速化とメモリ削減を実現しながらも、従来手法を超える性能を実現する。
الملخص
ビデオ大規模言語モデルにおけるトークン圧縮手法:DyCokeに関する研究論文の概要
Keda Tao, Can Qin, Haoxuan You, Yang Sui, Huan Wang. (2024). DyCoke: Dynamic Compression of Tokens for Fast Video Large Language Models. arXiv preprint arXiv:2411.15024v1.
近年、複雑なビデオコンテンツを処理するビデオ大規模言語モデル(VLLM)が著しく進歩しているが、ビデオ入力から生成される膨大なビジュアルトークンがもたらす高い計算コストのため、その推論効率は依然として制限されている。本研究では、VLLMのトークン表現を最適化し、高速化するために、訓練不要なトークン圧縮手法であるDyCokeを提案する。