本論文は、ビデオ質問回答タスクにおけるフレームサンプリングの課題に取り組んでいる。従来のサンプリング手法には以下の問題点がある:
そこで本論文では、以下の2つの新しいサンプリング手法を提案する:
Most Implied Frames (MIF):
Most Dominant Frames (MDF):
提案手法は、CLIP、GIT、All-in-oneといった様々な画像-テキストモデルと4つのデータセットで評価され、既存手法を上回る性能を示している。また、分析を通じて、質問関連のサンプリングは必須ではないことが明らかになった。
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Wei Han,Hui ... ב- arxiv.org 04-02-2024
https://arxiv.org/pdf/2307.04192.pdfשאלות מעמיקות