Core Concepts
소량의 학습 데이터로도 폴란드어 분류 작업을 효과적으로 수행할 수 있는 방법론을 제시한다.
Abstract
이 논문은 폴란드어 분류 작업을 위한 소량 학습 벤치마크를 소개하고, 다양한 학습 기법과 사전 학습 모델의 성능을 비교 분석한다.
주요 내용은 다음과 같다:
7개의 폴란드어 분류 데이터셋을 활용하여 소량 학습 벤치마크를 구축했다.
미세 조정, 선형 프로빙, SetFit, 문맥 학습 등의 기법을 비교 평가했다. 문맥 학습이 가장 좋은 성능을 보였지만, 완전 데이터셋으로 미세 조정한 HerBERT-large 모델과는 14%p 차이가 났다.
SetFit이 두 번째로 좋은 성능을 보였고, 선형 프로빙이 그 뒤를 이었다. 비선형 헤드를 이용한 미세 조정은 가장 낮고 불안정한 성과를 보였다.
문맥 학습 실험 결과, 폴란드어 코퍼스로 지속적으로 사전 학습한 Mistral-7b, Trurl-13b 모델이 좋은 성능을 보였다. 하지만 Krakowiak-7b-v2는 오히려 성능이 낮아졌는데, 이는 타겟 언어로의 지속적 미세 조정이 주의 깊게 이루어져야 함을 시사한다.
폴란드어 소량 학습 실험을 지원하기 위해 71개의 수동 작성 템플릿을 제공한다.
Stats
폴란드어 분류 작업에서 GPT-4 모델의 평균 성능은 65.9%이다.
HerBERT-large 모델을 전체 데이터셋으로 미세 조정했을 때 평균 성능은 79.9%이다.
GPT-3.5 모델의 16샷 평균 성능은 59.5%이다.
Quotes
"ICL이 0샷과 16샷 모두에서 가장 좋은 성능을 달성했습니다. 하지만 GPT-4의 0샷 성능과 전체 데이터셋으로 미세 조정한 HerBERT-large 모델 사이에는 14%p의 상당한 격차가 있습니다."
"SetFit이 가장 효과적인 미세 조정 기법으로 나타났으며, ICL에 비해 훨씬 작은 모델을 사용할 수 있습니다. 그러나 SBERT-large와 ChatGPT 간 16샷 성능 차이는 12.4%p에 달합니다."
"상업용 모델인 PaLM-2, GPT-3.5, GPT-4가 폴란드어 이해력이 뛰어나며 오픈소스 모델을 능가했습니다. 그러나 Mistral-7b-instruct도 폴란드어 코퍼스로 사전 학습되지 않았음에도 매우 좋은 성능을 보였습니다."