本文提出了一種名為LECCR的新型跨語言跨模態檢索(CCR)解決方案。與之前的方法不同,LECCR利用多模態大型語言模型(MLLM)生成詳細的視覺描述,並將其作為內部特徵來增強視覺表示,以幫助縮小模態之間的語義差距。具體來說,我們首先將MLLM生成的描述聚合為多視角語義槽,捕捉描述中不同的語義。然後,我們引入多視角視覺-語義交互模塊,利用這些語義槽來增強視覺特徵的語義信息,並生成局部視覺語義。此外,我們還提出了多層次匹配和在英語指導下的軟匹配,以進一步提高視覺和非英語特徵之間的對齊。實驗結果表明,我們的方法在四個CCR基準測試中均優於現有方法。
Başka Bir Dile
kaynak içeriğinden
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Yabing Wang,... : arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.19961.pdfDaha Derin Sorular