Concepts de base
本文提出了一種名為XMeCap的新方法,通過監督微調和強化學習,利用創新的獎勵模型來生成模因標題,該模型考慮了視覺和文本之間的全局和局部相似性。
Résumé
本文提出了一種名為XMeCap的新方法,用於生成單圖像和多圖像模因的標題。XMeCap的特點如下:
-
特徵提取:
- 對單圖像模因和多圖像模因分別進行處理。對於多圖像模因,使用OpenCV-Python精確識別每個子圖像並捕獲其坐標。
- 對原始和增強的子圖像使用強大的大型多模態模型(LLaVA-1.5-7B)提取深度特徵。
- 使用回翻譯和基於Transformer的LLM(Baichuan2-7B)提取文本特徵。
-
自適應轉換:
- 使用可訓練的線性層將圖像特徵和標題特徵投射到統一的空間。
- 計算全局和局部相似性,並將其作為監督信號。
-
基於注意力的文本生成:
- 採用監督微調和強化學習,以確保生成的標題與全局和局部相似性保持一致。
- 構建獎勵模型,將人工評估和基於注意力的排名相結合,以更好地反映人類偏好。
實驗結果表明,XMeCap在單圖像和多圖像模因標題生成方面均優於現有基準,並在多模態幽默檢測任務中也取得了出色的成績。這不僅為模因相關研究開闢了新的前景,也突出了機器在多模態環境中理解和生成幽默的潛力。
Stats
整個數據集中模因標題的平均長度為16.6個字符,最長為25個字符,最短為5個字符。
自誇型模因標題的平均長度為14.7個字符,最長為21個字符,最短為8個字符。
讚美他人型模因標題的平均長度為17.4個字符,最長為25個字符,最短為10個字符。
自嘲型模因標題的平均長度為13.3個字符,最長為20個字符,最短為5個字符。
嘲笑他人型模因標題的平均長度為11.5個字符,最長為19個字符,最短為6個字符。