本文提出了一種名為LECCR的新型兩流架構解決方案,利用多模態大型語言模型(MLLM)生成詳細的視覺描述,並將其作為內部特徵來增強視覺表示。此外,我們還引入了多層次匹配和在英語指導下的軟匹配,以進一步提高視覺和非英語特徵之間的對齊。