핵심 개념
儘管大型語言模型(LLM)在複雜推理和程式碼生成等任務中表現出色,但它們在處理簡單的基於文字的計數問題(例如計算單詞中特定字母的出現次數)方面卻表現不佳。本文探討了造成這種現象的原因,並發現現有的猜測,例如分詞問題或缺乏字元級訓練,並不能完全解釋這種現象。研究表明,即使是專精於數學或程式碼的LLM也難以解決這些簡單的計數問題。然而,透過引導LLM進行推理,例如使用「思路鏈」(CoT)等方法,可以顯著提高其在這些任務上的表現。這意味著LLM本身具備解決這些問題的能力,但需要適當的引導才能有效地運用。
초록
大型語言模型計數問題研究
研究背景
近年來,大型語言模型(LLM)在處理複雜任務(如複雜推理、考試、程式碼生成、多語言理解和數學問題解決)方面取得了與人類相當甚至超越人類的表現。然而,令人驚訝的是,LLM在處理人類認為簡單或微不足道的基本任務時卻顯得力不從心,特別是那些不需要廣泛詞彙知識或複雜推理的任務。
研究問題
為何LLM在簡單的基於文字的計數問題上表現不佳?
現有猜測
- **分詞問題:**現有LLM主要採用子詞分詞演算法,難以感知單詞內部個別字元的內在特徵和差異。
- **缺乏字元級訓練:**現有LLM主要在詞級資料上進行預訓練和後訓練,因此未針對需要字元級分析的任務進行優化。
- **單詞中過多的唯一字元:**研究表明,Transformer模型計算單詞中字母出現次數的能力受其嵌入大小的限制,單詞中唯一字元越多,LLM的表現越差。
研究方法
本文設計了多種評估設定,以驗證上述猜測:
- **隱式和顯式字元級分詞:**透過引入字元級單詞擾動和強制字元分詞,評估LLM在不同分詞策略下的表現。
- **字元輸入的分類任務:**評估LLM在使用罕見字元輸入格式的分類任務(如情感分析)上的表現,以驗證其字元級推理能力。
- **唯一字元和總字元數的影響:**透過控制單詞的總字元數和唯一字元數,評估LLM在不同情況下的計數能力。
研究結果
- **分詞問題並非主要原因:**無論是隱式還是顯式字元級分詞,LLM的表現都沒有顯著提升,甚至可能下降。
- **LLM具備字元級推理能力:**在使用字元輸入的分類任務中,LLM的準確率遠高於隨機猜測,表明其具備處理需要字元級理解的任務的能力。
- **唯一字元數並非主要影響因素:**與先前研究結果相反,增加查詢單詞中唯一字元的數量並未導致LLM表現下降。
推理策略的有效性
研究發現,引導LLM進行推理可以顯著提高其在計數任務上的表現。例如,使用「思路鏈」(CoT)等方法可以幫助LLM更好地理解任務並提高最終表現。
總結
本文分析了現有關於LLM在簡單文字計數問題上失敗模式的猜測,並透過實驗證明這些猜測並不完全成立。研究結果表明,LLM本身具備解決這些問題的能力,但需要適當的引導才能有效地運用。未來研究方向包括將推理能力融入預訓練過程,以及設計更全面的評估基準以評估LLM的綜合能力。
통계
GPT-4o 在使用推理方法後,能夠以接近 100% 的準確率解決計數任務。
在二元分類任務中,所有研究的 LLM 都能達到 90% 以上的準確率;在六分類任務中,準確率則超過 50%。
將輸入格式從自然詞彙切換到罕見字元後,LLM 的表現僅略有下降,但仍遠高於隨機猜測的表現。
인용구
"The research community has discussed actively over the mysterious reason for such unexpected failures."
"Although specialized LLMs substantially enhance coding or mathematical reasoning capabilities over general LLMs, they still struggle in solving easy word-based counting problems that require easy-level reasoning."
"With the aid of reasoning procedures, the most powerful model GPT-4o is capable of solving counting tasks with accuracy approaching 100%, indicating that the model can leverage its possessed knowledge and problem-solving abilities individually without external assistance."