本研究は、多言語マルチモーダル検索(Cross-lingual Cross-modal Retrieval: CCR)の課題に取り組んでいる。CCRは、英語以外の言語のクエリを用いて、関連する視覚コンテンツを検索することを目的としている。
従来の手法では、機械翻訳を用いて非英語テキストと視覚コンテンツの疑似的な対応関係を作成していた。しかし、非英語テキストの表現品質が低いため、視覚特徴と非英語特徴のアラインメントが困難であった。
本研究では、多言語大規模言語モデル(MLLM)を活用して、視覚コンテンツの詳細な説明を生成し、それらを多視点セマンティックスロットとして集約する。これにより、視覚特徴に豊かなセマンティック情報を付与し、モダリティ間のギャップを埋めることができる。
さらに、英語特徴をガイダンスとして活用し、視覚特徴と非英語特徴の整合性を高める手法を提案している。
実験では、4つのCCRベンチマークデータセットで評価を行い、従来手法を上回る性能を示している。特に、大規模データセットでの優位性が顕著である。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询