Core Concepts
Post-Semantic-Thinking (PST)は、大規模言語モデルの推論能力を小規模モデルに効率的に蒸留する新しい戦略である。PST は、答えを先に生成し、その後に理由を生成する順序を採用し、さらに理由を語彙空間ではなく意味空間で学習することで、ハルシネーションの影響を受けにくく、かつ理由の表現に依存しない。
Abstract
本論文は、大規模言語モデル(LLM)の推論能力を小規模モデルに効率的に蒸留する新しい戦略「Post-Semantic-Thinking (PST)」を提案している。
従来の手法には以下の問題点があった:
理由を先に生成し、その後に答えを生成するため、理由のハルシネーションが答えの正解率に影響を与えてしまう。
学生モデルに対して、LLMの生成した理由を単語レベルで完全に模倣させるため、理由の表現に依存してしまう。
PST では以下の2つの改善点を導入している:
答えを先に生成し、その後に理由を生成する順序を採用することで、理由のハルシネーションの影響を受けにくくなる。また、答えの情報を先に持つことで、学生モデルの推論の難易度も下がる。
理由を語彙空間ではなく意味空間で学習することで、理由の表現に依存せずに、LLMの推論ロジックを学習できるようになる。
広範な12の推論タスクでの実験の結果、PST は従来手法よりも優れた性能を示すことが確認された。また、PST は答えを先に生成できるため、推論時の効率も高い。
Stats
答えを先に生成することで、理由のハルシネーションの影響を受けにくくなる。
答えの情報を先に持つことで、学生モデルの推論の難易度が下がる。
理由を意味空間で学習することで、理由の表現に依存せずにLLMの推論ロジックを学習できる。
Quotes
"Post-Thinking (PT) takes T = xi ⊕yi ⊕ri consisting of a sequence of tokens t1, ..., tM as input, and then uses a weighted next token prediction (NTP) loss to train the student model."
"Post-Semantic-Thinking (PST) is proposed to align the LLM rationale in hidden semantic space so as to learn the core semantic reasoning logic behind rationale rather than the specific expression of rationale."