核心概念
SignCLIP 透過將文字和手語視頻投影到相同的嵌入空間,實現了從大規模、多語言視頻文本對中學習手語視覺表示的目標,並在手語識別等下游任務中展現出良好的性能。
標題: SignCLIP:透過對比學習連接文字和手語
作者: Zifan Jiang, Gerard Sant, Amit Moryossef, Mathias Müller, Rico Sennrich, Sarah Ebling
機構: 苏黎世大学
發表日期: 2024年10月6日
本研究旨在解決手語處理領域中數據稀缺和缺乏泛化性的問題,開發一種通用的預訓練模型 SignCLIP,將文字和手語視頻投影到相同的嵌入空間,以實現從大規模、多語言視頻文本對中學習手語視覺表示的目標。