Core Concepts
概念に基づくトレーニングフレームワークで、新しい潜在的な推論概念を学習する言語モデルの能力を向上させる。
Abstract
言語モデルのインコンテキスト学習における新たなアプローチであるCoATの提案と実装に焦点を当てた内容。
CoATは、トレーニングシナリオを構築し、言語モデルがインコンテキストプロンプトから新しい潜在的な概念を利用することを挑戦する。
研究では、CoATが未知の概念から利益を得られることや、その能力が以前のインコンテキスト学習者よりも堅牢であることが示されている。
Concept-aware Data Construction:
ICL能力は過剰パラメータ化やマルチタスクトレーニングの規模からではなく、特定のデータ品質に関連している。
潜在的な推論概念を抽出・適用することでICL品質が向上し、小規模な設定でもICLが発生する可能性がある。
Methods for training in-context learners:
GPT3やBERTなどの先行研究から始まり、小さなモデルでもICL能力が見られることが示唆されている。
多様性豊かな指示やタスク種類からICL能力が生じている可能性も指摘されている。
Analyses of ICL:
LMsの意思決定は人間と一致しない場合もあり、特定の形式や順序に敏感であることが報告されている。
ラベルシャッフルや不合理なCoTシーケンスでもICLは成立する可能性がある。
Stats
10〜100倍小さいモデルでも比較可能なICL品質に到達している(Sanh et al., 2022; Wang et al., 2022)。
Quotes
"Many recent language models (LMs) are capable of in-context learning (ICL), manifested in the LMs’ ability to perform a new task solely from a natural-language instruction."
"Recent theoretical work attributes the ICL ability to concept-dependent training data and creates functional in-context learners even in small-scale, synthetic settings."