核心概念
ビデオオブジェクト(人、動物、車など)を中心としたオブジェクト指向のアプローチを提案し、これにより複雑なクエリを簡単に表現でき、さらにオブジェクトレベルの最適化によりクエリ処理の効率を大幅に向上させることができる。
要約
本論文は、ビデオアナリティクスにおける重要な概念であるビデオクエリに着目し、オブジェクト指向のアプローチを提案している。
まず、ビデオクエリを実現する従来の手法には以下のような課題がある:
- パイプラインを手動で構築する方法は労力がかかり、エラーが生じやすい
- SQL系のフレームワークはビデオオブジェクトの表現が不得意で、最適化も困難
- マルチモーダルLLMは探索的なビデオアナリティクスには適しているが、特定のフレームに関する質問には不向き
そこで本論文では、ビデオオブジェクトをオブジェクト指向言語のオブジェクトに見立てたVQPyを提案している。VQPyでは、ビデオオブジェクトを中心としたフロントエンドと、オブジェクトベースのデータモデルを持つ最適化可能なバックエンドを備えている。
具体的な特徴は以下の通り:
- ビデオオブジェクト(VObj)、関係(Relation)、クエリ(Query)の3つの主要な構造を提供し、オブジェクト指向的にビデオクエリを記述できる
- オブジェクトベースのデータモデルにより、オブジェクトレベルの最適化(計算の再利用など)を実現
- 柔軟な最適化フレームワークにより、ユーザー定義のフィルタやニューラルネットワークを容易に組み込める
評価の結果、VQPyは従来手法に比べ10倍以上の高速化を達成しつつ、同等の精度を維持できることが示された。また、Ciscoのビデオアナリティクスフレームワークに組み込まれるなど、実用化も進んでいる。
統計
従来手法と比べ、VQPyは平均して4.9倍、1.5倍、11倍高速化を達成した。
VQPyは、VideoChat-7Bに比べて7倍高速、10倍少ないGPUメモリを使用し、3-5倍高い精度を達成した。