インターネットからのビデオデータベースは、テキスト-音声検索用の貴重な情報源です。しかし、視覚的な記述を音声記述として扱うことは最適ではありません。この研究では、自己中心的なビデオ設定を考慮し、EpicMIRおよびEgoMCQタスク、EpicSoundsデータセットに基づく3つの新しいテキスト-音声検索ベンチマークを提案します。LLMsを使用してオリジナルの視覚中心の記述よりも高いゼロショットパフォーマンスが得られることを示します。さらに、同じプロンプトを使用して、EpicSoundsでの検索性能向上が可能であることも示します。最後に、LLMsが特定のアクションを識別する難易度を決定するために使用できることも確認します。
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Andr... às arxiv.org 03-01-2024
https://arxiv.org/pdf/2402.19106.pdfPerguntas Mais Profundas