本文探討了視覺語言模型在解決文本歧義方面的能力。作者提出了一個名為"Understanding Pun with Image Explanations (UNPIE)"的新基準測試,旨在評估多模態輸入在解決詞彙歧義方面的影響。
UNPIE包含1,000個雙關語,每個雙關語都附有一個圖像,解釋了雙重含義。作者設計了三個多模態挑戰任務:雙關語定位、歧義消除和重建。實驗結果表明,當給予視覺上下文時,各種社交模型和視覺語言模型的性能都有所提高,尤其是在任務複雜度增加的情況下。
此外,作者發現,在標準的多模態機器翻譯數據集上微調會對雙關語重建任務的性能產生不利影響。這與之前的研究結果一致,即基於網絡的多模態翻譯數據集可能無法有效地捕捉視覺依賴性。
總的來說,本文提出了一個新的基準測試UNPIE,用於評估視覺語言模型的多模態理解能力,並通過實驗驗證了這些模型在處理文本歧義方面的能力。
翻譯成其他語言
從原文內容
arxiv.org
深入探究