Centrala begrepp
事前学習済み大規模言語モデル (LLM) の文脈長を効率的に拡張するために、文脈の中間部分からの情報活用に焦点を当てた新しい位置エンコーディング手法「CREAM」を提案する。
Sammanfattning
CREAM:中間重視の位置エンコーディングによる長文脈拡張のための効率的なレシピ
この論文は、事前学習済み大規模言語モデル (LLM) の文脈長を効率的に拡張するための新しい手法である「CREAM」(Continuity-Relativity indExing with gAussian Middle)を提案する研究論文である。
LLMは通常、固定長の文脈ウィンドウサイズで事前学習されるため、長い文脈の処理が課題となる。本研究は、事前学習済みの文脈ウィンドウサイズ内で効率的にファインチューニングを行いながら、長い文脈、特に中間部分の情報を効果的に活用できるLLMの文脈拡張手法を開発することを目的とする。
CREAMは、位置エンコーディング(PE)を操作することで、長いターゲットシーケンスの位置インデックスを、事前学習済みの文脈ウィンドウサイズ内の短いシーケンスに変換する。
文脈分割: 事前学習済みの文脈ウィンドウを、先頭、中間、末尾の3つのセグメントに分割する。
連続性と相対性のバランス: 連続性を重視したインデックス戦略と、相対性を重視したインデックス戦略の2つを導入し、両方のバランスを取る。
切断ガウス分布による中間セグメントのサンプリング: ファインチューニング中に文脈の中間部分からのサンプリングを促進するために、切断ガウス分布を導入する。