核心概念
本研究では、大規模言語モデルの少量データ学習を効果的に行うため、「In-Context Sampling」(ICS)と呼ぶ新しいプロンプト設計手法を提案する。ICSは、複数のプロンプト入力を組み合わせることで、モデルの最も確信度の高い予測を得ることができる。
要約
本研究では、大規模言語モデルの少量データ学習を効果的に行うための新しいプロンプト設計手法「In-Context Sampling」(ICS)を提案している。
ICSは以下の3つのステップから構成される:
代表的なデモンストレーション候補をサンプリングする
サンプルした候補から異なるプロンプト入力を作成し、それぞれの予測を得る
最も確信度の高い予測を選択する
ICSの評価では、3つの大規模言語モデル(FLAN-T5-XL、Mistral-7B、Mixtral-8x7B)を用いて、4つの自然言語推論(NLI)タスクと1つの常識問答(CQA)タスクで検証を行った。
その結果、ICSは従来のIn-Context Learning(ICL)アプローチと比べて、一貫して予測精度と頑健性を向上させることが示された。
さらに、3つの異なるデータ類似性ベースのICS戦略を提案し、それらがICLやランダムICSよりも優れた性能を発揮することも明らかにした。
これらの結果は、ICSが大規模言語モデルの少量データ学習を効果的に支援する新しい手法であることを示唆している。
統計
大規模言語モデルは、より複雑で詳細なタスク指示や、少量のタスク例とアノテーションを含むプロンプト入力を理解することができる。
異なるデモンストレーションは、モデルにタスクを解決するための暗黙的な知識を提供する。
引用
異なるデモンストレーションは、モデルにタスクを解決するための暗黙的な知識を提供する。
ICSは、複数のプロンプト入力を組み合わせることで、モデルの最も確信度の高い予測を得ることができる。