Armeni, K., Pranjić, M., & Pollak, S. (2024). Transformer verbatim in-context retrieval across time and scale. arXiv preprint arXiv:2411.07075.
本研究旨在探討 Transformer 語言模型如何學習從上下文資訊中進行逐字檢索,以及此能力與其他學習能力的關係。具體而言,研究者探討了以下問題:
研究者使用了 Pythia 語言模型套件中不同規模的預訓練模型,並利用一個簡單的語言情境來測試模型對名詞列表的逐字檢索能力。具體來說,他們讓模型處理一個包含兩個相同名詞列表的簡短段落,並計算模型在處理第二個列表時,每個名詞的損失變化。損失變化越大,表示模型越能從上下文中檢索到該名詞。
研究發現:
本研究結果表明,Transformer 語言模型能夠有效地學習從上下文中檢索資訊,且此能力與其他學習能力的發展密切相關。此外,研究結果也顯示,詞彙的語義抽象性會影響模型的檢索能力,這為理解語言模型如何學習語言的語義結構提供了新的視角。
本研究對於理解 Transformer 語言模型的學習機制具有重要意義,並為開發更強大的語言模型提供了新的思路。
本研究主要關注名詞的逐字檢索,未來研究可以探討其他詞性的檢索能力,以及不同語言的影響。此外,本研究僅分析了模型的行為表現,未來研究可以結合模型可解釋性方法,深入探討模型內部的運作機制。
翻譯成其他語言
從原文內容
arxiv.org
深入探究