小規模データセットや検証セットの再利用、意図的に難しいタスクなど、インコンテキスト学習の評価には課題がある。標準的なランダムベースラインでは不十分であり、検証セットの再利用を考慮した、より強力なランダムベースラインを使うべきである。