이 논문은 언어 모델의 인지 능력을 평가할 때 보조 과제 요구사항이 중요한 역할을 한다는 것을 보여준다.
먼저 연구진은 아날로지 추론, 반성적 추론, 단어 예측, 문법성 판단 등 다양한 인지 영역에서 높은 요구사항의 평가 방법이 낮은 요구사항의 평가 방법보다 성능이 낮다는 것을 확인했다.
이러한 "요구사항 격차"는 매개변수가 적고 학습 데이터가 적은 모델에서 더 크게 나타났다. 이는 언어 모델의 성능이 모델의 실제 능력을 직접적으로 반영하는 것이 아니라, 연구자의 평가 방법에 따라 달라질 수 있음을 보여준다.
또한 단일 모델의 학습 과정에서도 요구사항 격차가 나타났다. 낮은 요구사항의 평가 방법이 모델의 능력을 더 빨리 포착할 수 있었다.
이 결과는 언어 모델의 능력을 해석할 때 평가 방법의 영향을 고려해야 한다는 점을 시사한다. 언어 모델의 성능은 모델의 실제 능력이 아닌, 연구자의 평가 방법에 따른 반영이라고 볼 수 있다.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Jennifer Hu,... um arxiv.org 04-04-2024
https://arxiv.org/pdf/2404.02418.pdfTiefere Fragen