本文提出了一個擴展法則假說,將既有的基於文本的擴展法則推廣到多模態模型。這個假說強調了每個模態的壓縮和標記化效率在決定多模態模型性能中的關鍵作用。
文章首先回顧了在大型語言模型中發現的擴展法則,這些法則揭示了模型性能、大小和訓練數據量之間的基本關係。這些法則為LLM的開發提供了指導,幫助平衡模型大小和數據量以優化性能。
然而,這些擴展法則主要針對基於文本的模型,在多模態模型中可能不適用。多模態模型需要處理文本、音頻、圖像和視頻等不同類型的數據,每種數據類型的壓縮和標記化效率都不同。這種差異突出了需要一個考慮每種模態特性的擴展法則。
文章提出了一個新的擴展法則方程式,將模型性能與原始數據總量和模型大小聯繫起來,同時考慮了每種模態的壓縮效率。這個方程式表明,雖然模型處理的總原始數據量對整體性能有貢獻,但每種模態的標記化效率也是一個關鍵因素,影響了所需的計算資源。
通過這個擴展法則假說,文章探討了利用更多跨模態訓練數據來減小模型大小而不損失性能的可能性。這可以使多模態模型在資源受限的環境(如移動設備或邊緣計算)中更加高效。通過優化數據量和模型大小之間的權衡,我們希望使多模態模型更適合部署在本地設備上。
未來的工作應該集中在量化每種模態的壓縮因子,以實現更準確的性能預測,並指導為各種任務和數據類型開發優化的多模態架構。
翻譯成其他語言
從原文內容
arxiv.org
深入探究