核心概念
大規模言語モデルの効率的なインコンテキスト学習を実現するため、入力コンテキストの長さを管理しつつ、利用可能なデモンストレーション例をすべて活用する新しい手法を提案する。
摘要
本論文では、パラレルインコンテキスト学習(ParaICL)と呼ばれる新しい手法を提案している。ParaICLは、入力コンテキストの長さを管理しつつ、利用可能なデモンストレーション例をすべて活用することで、大規模言語モデルのインコンテキスト学習の効率を高めることを目的としている。
具体的には以下の手順で行われる:
- デモンストレーション例をテスト問題との意味的類似性に基づいて並べ替え、複数のバッチに分割する。
- 各バッチの意味的関連性をスコア化し、加重平均セマンティック目的関数を定義する。
- 適応的な蓋然性制約の下で、加重平均セマンティック目的関数を最大化することで、最終的な出力トークンを選択する。
この手法により、入力コンテキストの長さを管理しつつ、利用可能なデモンストレーション例をすべて活用することができる。
実験の結果、ParaICLは推論、自然言語推論、プログラミングなどの様々なタスクにおいて、既存手法を上回る性能を示した。また、他の手法との統合も可能であることを確認した。
統計資料
1日に16個の卵を産むアヒルがいる。
アヒルの卵は1個2ドルで売られている。
ジャネットは朝食に3個、友人のためにマフィンに4個使う。
残りの卵を農産物市場で売る。
引述
"大規模言語モデル(LLM)は、驚くべき能力を発揮し、わずかなデモンストレーション例を用いたインコンテキスト学習(ICL)で優れた成果を上げている。"
"ICLの有効性は、デモンストレーション例の選択に大きく依存する。"
"デモンストレーション例の数を増やすだけでは必ずしも性能向上につながらない。"