Core Concepts
VimTSは、異なるタスク間の相乗効果を活用することで、モデルの汎化能力を向上させる新しい手法である。
Abstract
本論文では、VimTSと呼ばれる新しい手法を提案している。VimTSは、画像レベルおよびビデオレベルのテキストスポッティングタスクの相乗効果を活用することで、モデルの汎化能力を向上させることを目的としている。
具体的には以下の3つの主要な貢献がある:
Prompt Queries Generation ModuleとTask-aware Adapterを提案し、最小限の追加パラメータで単一タスクモデルをマルチタスクモデルに変換できる。これにより、画像とビデオの両方のシナリオに適応できる。
CoDeF アルゴリズムを利用して、大規模な合成ビデオテキストデータセット(VTD-368k)を構築した。これにより、時間情報の学習コストを低減できる。
6つのクロスドメインベンチマークで平均2.6%の精度向上、ビデオレベルのクロスドメインアダプテーションでは従来手法を平均5.5%上回る性能を達成した。大規模マルチモーダルモデルと比較しても、VimTSは大幅に少ないパラメータとデータで優れた性能を示した。
Stats
提案手法VimTSは、6つのクロスドメインベンチマークで平均2.6%の精度向上を達成した。
ビデオレベルのクロスドメインアダプテーションでは、従来手法を平均5.5%上回る性能を示した。
Quotes
"VimTSは、異なるタスク間の相乗効果を活用することで、モデルの汎化能力を向上させる新しい手法である。"
"CoDeF アルゴリズムを利用して、大規模な合成ビデオテキストデータセット(VTD-368k)を構築した。これにより、時間情報の学習コストを低減できる。"
"VimTSは、大規模マルチモーダルモデルと比較しても、大幅に少ないパラメータとデータで優れた性能を示した。"