インコンテキスト学習の分類性能を評価する際には、小規模なデータセットサイズ、検証セットを使ったプロンプト選択の多用、意図的に難しいタスクなどの課題がある。標準的なランダムベースラインは、検証セットを1回しか使わない場合や大規模なデータセットでは安定するが、検証セットの再利用が一般的な場合には不十分である。
本研究では、検証セットの再利用を考慮した、より強力なランダムベースラインを提案する。6つの量子化言語モデルを16のBIG-bench Liteタスクに適用し、最良のプロンプトデモンストレーションを選択する際に、標準ベースラインを超えるが最大ランダムベースラインを超えない結果が20%以上あった。
また、保留テストセットが利用可能な場合、この最大ランダムベースラインは標準ベースラインよりもテスト性能を良く予測できるため、不要なテストセット評価を避けられる。この最大ランダムベースラインは簡単に計算でき、標準ベースラインの代替として使えるようになっている。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Gregory Yaun... at arxiv.org 04-22-2024
https://arxiv.org/pdf/2404.13020.pdfDeeper Inquiries