Core Concepts
大言語モデル(LLM)を用いたゼロショット分類において、プロンプト内のラベル名の選択がモデルの性能に大きな影響を与える。本研究では、ニューロン活性化パターンの分析に基づいたラベルセット最適化手法LOADSを提案し、従来の手法よりも優れた性能を実現する。
Abstract
生成モデルを用いたゼロショット分類のための活性化分布尖度によるラベルセットの最適化:論文要約
この論文は、大規模言語モデル(LLM)を用いたゼロショットテキスト分類における、プロンプト設計、特にラベル名の選択が分類精度に与える影響について調査した研究論文である。
ゼロショットのインコンテキスト学習(ICL)において、プロンプト内のラベルオプション(語彙の選択、順序、詳細化)が分類性能にどのように影響するかを調査する。
ラベル名の選択に基づいて最適なラベルセットを自動的に選択する手法を開発する。
英語のスタンス分類データセットを用い、Flan-T5、Llama 3、Llama 3.1などの異なるLLMを用いてゼロショットICLの性能を評価する。
ラベルオプションとして、様々な語彙の選択、ラベルの順序、ラベルの詳細化を検討し、それぞれの影響を分析する。
モデル内部状態、特にデコーダのフィードフォワードネットワーク(FFN)におけるニューロンの活性化パターンを分析する。
ニューロンの活性化分布の尖度に基づいて最適なラベルセットを選択する手法、LOADS (Label set Optimization via Activation Distribution kurtosiS) を提案する。