本文提出了一個理論分析框架,用於分析聯邦式視覺語言模型的提示學習。主要包括以下內容:
通過將文本編碼器和圖像編碼器的特徵對齊到共享的潛在特徵空間,建立了提示學習的分析框架。
採用兩階段分析,跟蹤任務相關和任務無關特徵的係數動態,以理解提示學習的信號學習和噪聲記憶過程。並證明提示學習的有效性可以通過任務相關和任務無關係數的比率來評估。
將任務相關係數視為投資組合中的收益,任務無關係數視為風險,啟發引入全局提示和本地提示的組合(prompt portfolio),以平衡泛化和個性化。理論上證明了這種組合方法的性能優勢,並推導出最優的混合係數。
通過大量實驗驗證了理論結果,並在不同數據集、數據分佈和客戶數量下展示了算法的優越性。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문