Conceptos Básicos
작은 데이터셋 크기, 검증 세트 반복 사용, 의도적으로 어려운 과제로 인해 문맥 학습 성능 평가에 어려움이 있다. 이를 해결하기 위해 여러 무작위 분류기의 최대 정확도를 기준선으로 사용하는 것이 더 강력한 접근법이다.
Estadísticas
작은 데이터셋에서도 몇 번의 검증 세트 재사용만으로도 표준 무작위 기준선보다 10% 이상 높은 최대 무작위 기준선을 얻을 수 있다.
1,000개의 예제가 있는 데이터셋에서는 10,000번의 검증 세트 재사용이 필요하여 최대 무작위 기준선이 표준 기준선과 유사해진다.
Citas
"작은 데이터셋 크기, 검증 세트 반복 사용, 의도적으로 어려운 과제로 인해 문맥 학습 성능 평가에 어려움이 있다."
"여러 무작위 분류기 중 최대 정확도를 기준선으로 사용하는 것이 더 강력한 접근법이다."
"16개의 BIG-bench Lite 과제에 대해 양자화된 6개 언어 모델을 평가한 결과, 표준 기준선을 넘는 20% 이상의 결과가 더 강력한 기준선을 넘지 못했다."