Основные понятия
大規模言語モデルは少量のデータでも高性能なテキスト分類を実現できるが、従来の微調整アプローチとの比較では課題が残る。
Аннотация
本論文は、大規模言語モデルと従来の微調整アプローチを、16のテキスト分類データセットを用いて大規模に比較・分析したものである。
主な知見は以下の通り:
少量データ(ゼロショットや1ショット)では、大規模言語モデルのFlan-T5が最も良好な性能を示す。しかし、十分なデータがある場合は、RoBERTaなどの微調整モデルが優れる。
プロンプトの詳細度は、大規模言語モデルの性能にそれほど影響しない。
分類タスクの複雑さ(ラベル数)が増すと、微調整モデルの優位性が高まる。
事前学習データに含まれるデータセットについては、Flan-T5の性能が大幅に向上する。
これらの結果から、大規模言語モデルは少量データでの汎化性能に優れるが、十分なデータがある場合や複雑なタスクでは、従来の微調整アプローチの方が有効であることが示された。
Статистика
大規模言語モデルは少量データでも高性能なテキスト分類を実現できる。
微調整モデルは十分なデータがある場合や複雑なタスクで優位性を持つ。
プロンプトの詳細度は大規模言語モデルの性能にそれほど影響しない。
事前学習データに含まれるデータセットについては、Flan-T5の性能が大幅に向上する。