Core Concepts
BEnQA 데이터셋을 통해 대형 언어 모델의 벵골어와 영어 간 성능 격차를 확인하고, 다양한 프롬프팅 기법을 활용하여 벵골어 문제 해결 능력을 향상시킬 수 있는 방안을 제시한다.
Abstract
이 연구에서는 BEnQA라는 벵골어와 영어로 된 중고등학교 수준의 과학 문제 데이터셋을 소개한다. 이 데이터셋은 약 5,000개의 문제로 구성되어 있으며, 사실적 지식, 절차 및 적용, 추론 등 다양한 유형의 문제를 포함하고 있다.
연구진은 이 데이터셋을 활용하여 대형 언어 모델의 벵골어와 영어 간 성능 격차를 확인했다. 특히 GPT-4와 GPT-3.5가 영어 문제에서는 우수한 성능을 보였지만, 벵골어 문제에서는 상대적으로 낮은 성적을 받았다.
이를 개선하기 위해 연구진은 다양한 프롬프팅 기법을 시도했다. 그 결과, 추론 문제의 경우 Chain-of-Thought 프롬프팅이 도움이 되었지만, 사실적 문제에서는 그렇지 않았다. 또한 영어 번역문을 함께 제공하면 벵골어 문제 해결 성능이 향상되는 것을 확인했다.
이러한 연구 결과는 저자원 언어에서 대형 언어 모델의 성능을 높이기 위한 향후 연구 방향을 제시한다.
Stats
벵골어 문제에서 GPT-4의 성능은 12학년 생물 I 부문에서 84.44%를 기록했다.
GPT-3.5의 경우 12학년 물리 II 부문에서 59.47%의 성적을 받았다.
오픈소스 모델인 LLaMA-2(13B)는 12학년 생물 I 부문에서 38.10%의 점수를 얻었다.
Quotes
"BEnQA 데이터셋은 벵골어와 영어로 된 병렬 데이터셋으로, 두 언어 간 모델 성능 격차를 공정하게 비교할 수 있게 해준다."
"Chain-of-Thought 프롬프팅은 추론 문제에서 도움이 되지만, 사실적 문제에서는 그렇지 않다는 것을 확인했다."
"영어 번역문을 함께 제공하면 벵골어 문제 해결 성능이 향상되는 것을 확인했다."