Core Concepts
대규모 언어 모델의 In-Context Learning 기능을 활용하여 적은 수의 예시로도 다국어 질문 답변 데이터셋을 효과적으로 생성할 수 있다.
Abstract
이 논문은 대규모 언어 모델(LLM)의 In-Context Learning 기능을 활용하여 다국어 질문 답변 데이터셋을 생성하는 GeMQuAD 방법을 제안한다.
- AlexaTM 20B 모델을 사용하여 1개의 예시로 힌디어와 스페인어 데이터를 생성한다.
- 생성된 데이터에서 고품질 데이터를 선별하기 위해 WeakDAP 기반의 반지도 학습 접근법을 적용한다.
- 선별된 고품질 데이터로 XLM-R-Base 모델을 fine-tuning하여 성능을 향상시킨다.
- 이 접근법은 모델 fine-tuning 없이도 기존 영어 데이터셋 대비 힌디어 5.05/6.50 F1/EM, 스페인어 3.81/3.69 F1/EM 점수 향상을 달성했다.
- 또한 기계 번역 기반 데이터 증강 모델 대비 힌디어 0.22/1.68 F1/EM, 스페인어 0.82/1.37 F1/EM 점수 향상을 보였다.
- 제안 방법은 소수의 예시로도 효과적으로 다국어 데이터를 생성할 수 있어 비용 효율적이다.
Stats
힌디어 데이터셋에서 60.09%의 F1 점수와 43.59%의 Exact Match 점수를 달성했다.
스페인어 데이터셋에서 64.85%의 F1 점수와 43.69%의 Exact Match 점수를 달성했다.
평균적으로 59.81%의 F1 점수와 44.63%의 Exact Match 점수를 달성했다.
Quotes
"대규모 언어 모델(LLM)의 In-Context Learning 기능을 활용하여 적은 수의 예시로도 다국어 질문 답변 데이터셋을 효과적으로 생성할 수 있다."
"제안 방법은 모델 fine-tuning 없이도 기존 영어 데이터셋 대비 힌디어 5.05/6.50 F1/EM, 스페인어 3.81/3.69 F1/EM 점수 향상을 달성했다."
"제안 방법은 기계 번역 기반 데이터 증강 모델 대비 힌디어 0.22/1.68 F1/EM, 스페인어 0.82/1.37 F1/EM 점수 향상을 보였다."