本研究では、自動運転システムにおけるマルチモーダルLLMの実用的な導入を目的として、「動画トークンスパース化(VTS)」と呼ばれる新しいアプローチを提案している。
VTSは、連続する動画フレーム間の冗長性を活用し、最も重要な視覚トークンを保持しながら、総トークン数を大幅に削減することで、計算コストと メモリ消費を大幅に削減することができる。具体的には以下の手順で行われる:
この手法により、DRAMA and LingoQAベンチマークにおいて、最大33%の推論スループット向上と28%のメモリ使用量削減を達成しつつ、性能を維持することができた。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Yunsheng Ma,... alle arxiv.org 09-18-2024
https://arxiv.org/pdf/2409.11182.pdfDomande più approfondite