大規模言語モデルの推論では、注意機構の計算量が大きいため、KVキャッシングを活用することで高速化できる。しかし、KVテンソルのメモリ使用量が大きくなるという課題がある。本研究では、注意重要度に基づいてスパース性を導入し、動的なスケジューリングを行うことで、リソース制限下でも高速な推論を実現する。