核心概念
本文提出了一種新的提示學習方法,透過從人類或大型語言模型生成的自然語言提示中提取文本知識,並將其蒸餾成一個名為 AAPE 的提示嵌入,從而提升 CLIP 模型在下游任務中的泛化能力。
Huang, C., Seto, S., Abnar, S., Grangier, D., Jaitly, N., & Susskind, J. (2024). Aggregate-and-Adapt Natural Language Prompts for Downstream Generalization of CLIP. Advances in Neural Information Processing Systems, 38.
本研究旨在解決大型預訓練視覺語言模型(如 CLIP)在下游任務中,特別是在專業領域或細粒度分類任務中,由於訓練數據不足而導致泛化能力不佳的問題。