本研究は、大規模言語モデルの文脈学習(In-Context Learning: ICL)における内部状態ベクトルの理解と最適化に焦点を当てている。
まず、ICLの圧縮ベクトルが勾配降下法によって学習されたパラメータと類似していることを示し、これを「状態ベクトル」と呼ぶ概念を導入した。
次に、モデルアンサンブルの手法と運動量最適化アルゴリズムに着想を得て、状態ベクトルの「内部最適化」と「運動量最適化」を提案した。これらの手法により、状態ベクトルの性能を大幅に向上させることができた。
さらに、多数の例示を処理する際の課題に取り組むため、状態ベクトルの「分割統合集約」手法を提案した。これにより、大量の例示を効率的に圧縮して状態ベクトルに集約することができる。
広範な実験の結果、提案手法は Llama-2 と GPT-J の両モデルにおいて、ゼロショット設定と少数ショット設定の双方で最先端の性能を達成した。これは、状態ベクトルの最適化と集約が ICLの理解と性能向上に有効であることを示している。
To Another Language
from source content
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Dongfang Li,... ที่ arxiv.org 04-18-2024
https://arxiv.org/pdf/2404.11225.pdfสอบถามเพิ่มเติม