本論文では、長尺のエゴセントリックビデオに対する質問応答(QA)タスクに取り組む。与えられたビデオとクエリから、関連する時間窓を特定し、自然言語で回答を生成する統一モデルを提案する。
主な特徴は以下の通り:
実験の結果、提案手法は QAEGO4Dおよび Ego4D-NLQベンチマークにおいて最先端の性能を達成した。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Shangzhe Di,... at arxiv.org 04-02-2024
https://arxiv.org/pdf/2312.06505.pdfDeeper Inquiries