핵심 개념
ビデオデータセットからのテキスト-音声検索用の大規模言語モデル(LLMs)を使用した新しい方法を紹介します。
초록
インターネットからのビデオデータベースは、テキスト-音声検索用の貴重な情報源です。しかし、視覚的な記述を音声記述として扱うことは最適ではありません。この研究では、自己中心的なビデオ設定を考慮し、EpicMIRおよびEgoMCQタスク、EpicSoundsデータセットに基づく3つの新しいテキスト-音声検索ベンチマークを提案します。LLMsを使用してオリジナルの視覚中心の記述よりも高いゼロショットパフォーマンスが得られることを示します。さらに、同じプロンプトを使用して、EpicSoundsでの検索性能向上が可能であることも示します。最後に、LLMsが特定のアクションを識別する難易度を決定するために使用できることも確認します。
통계
ビデオクリップに関連する数値や重要な数字は含まれていません。
인용구
"Video databases from the internet are a valuable source of text-audio retrieval datasets."
"We introduce a methodology for generating audio-centric descriptions using Large Language Models (LLMs)."
"Our approach for obtaining audio-centric descriptions gives significantly higher zero-shot performance than using the original visual-centric descriptions."