Core Concepts
이 논문은 대규모 언어 모델(LLM)을 활용하여 힌디어 질문 답변 벤치마크 데이터셋 Suvach를 생성하는 방법을 제안합니다. 이를 통해 기존 영어 데이터셋의 기계 번역에 의한 편향과 부정확성을 극복하고, 힌디어 질문 답변 모델 평가를 위한 더 정확하고 신뢰할 수 있는 도구를 제공합니다.
Abstract
이 논문은 힌디어 질문 답변 벤치마크 Suvach를 소개합니다. Suvach는 대규모 언어 모델(LLM)의 기능을 활용하여 힌디어에 특화된 데이터셋을 생성합니다. 기존 영어 데이터셋의 기계 번역 방식의 한계를 극복하고자 하는 것이 이 연구의 핵심 목적입니다.
논문에서는 Suvach 데이터셋 생성을 위한 워크플로우를 설명합니다. 주요 단계는 다음과 같습니다:
위키피디아 덤프 데이터를 활용하여 질문 생성을 위한 문맥 정보가 포함된 프롬프트를 생성합니다.
생성된 프롬프트를 LLM에 입력하여 질문-답변 쌍을 생성합니다.
생성된 질문-답변 쌍의 정확성, 관련성, 명확성 등을 LLM을 활용하여 검증합니다.
이렇게 생성된 Suvach 데이터셋은 100,000개 이상의 질문-답변 쌍으로 구성되며, 평균 1,200개의 토큰으로 구성됩니다. 질문에는 4개의 선택지가 제공되며, 그 중 하나가 정답입니다. 또한 질문에 대한 설명도 함께 제공됩니다.
Suvach 데이터셋은 질문만, 질문과 문맥, 질문과 문맥 및 선택지 등 다양한 형태로 활용할 수 있습니다. 이를 통해 힌디어 질문 답변 모델의 성능을 보다 정확하게 평가할 수 있습니다.
Stats
이 데이터셋은 100,000개 이상의 질문-답변 쌍으로 구성됩니다.
각 질문은 평균 1,200개의 토큰으로 구성됩니다.
각 질문에는 4개의 선택지가 제공되며, 그 중 하나가 정답입니다.
각 질문에는 설명이 함께 제공됩니다.
Quotes
"기존 영어 데이터셋의 기계 번역 방식은 편향과 부정확성을 야기하여 인도 언어 모델 평가에 적합하지 않습니다."
"대규모 언어 모델(LLM)의 기능을 활용하여 인도 언어에 특화된 벤치마크 데이터셋을 생성하는 것이 중요합니다."