Core Concepts
Proposing a method that combines a Large Language Model with a retrieval model for memory management to efficiently handle the Online Video Entity Linking (OVEL) task.
Abstract
最近、研究コミュニティで注目されているマルチモーダルエンティティリンキング(MEL)についての論文。オンライン動画内の言及と知識ベースのエンティティを高精度かつタイムリーに関連付けるタスク「Online Video Entity Linking(OVEL)」を提案。LIVEデータセットを構築し、時間性、堅牢性、精度を考慮した評価メトリックRoFAを導入。LLMとリトリーバルモデルを組み合わせた手法が効果的であることを実験結果が示す。
Stats
LIVEデータセット:82本のライブストリームビデオから収集された情報。
RoFAメトリック:時間性、堅牢性、精度を考慮した評価指標。
Quotes
"Videos, showcased by platforms like TikTok and YouTube, have become a dominant medium for communication."
"In this paper, we propose the task of Online Video Entity Linking (OVEL) on dynamic video streams."
"Our method achieves the best performance, once again demonstrating the effectiveness of our approach."