Core Concepts
ヒンディー語QAモデルを評価するための新しいベンチマークSuvachを提案する。大規模言語モデル(LLM)を活用して高品質のデータセットを生成し、ターゲット言語の真の能力を反映させる。
Abstract
本論文は、ヒンディー語の抽出型質問応答(QA)タスクのための新しいベンチマークSuvachを紹介する。Suvachは、最先端のLLMの機能を活用して、ヒンディー語の需要に特化したデータセットを生成する。機械翻訳によるデータの欠点を回避することで、Suvachはインド語LLMsの堅牢な評価環境を確立する。さらに、ここで概説した手法は、さまざまなタスクにわたってベンチマークを作成するために一般化できる。今回の事例では、多肢選択式の抽出型質問応答に焦点を当てている。
ワークフローは以下の通り:
コンテキストを含むプロンプトの作成
LLMを使ってプロンプトからデータセットを生成
生成された質問と答えのペアを検証し、品質を確保
生成されたデータセットには100,000件以上の質問と答えが含まれ、平均1,200トークンの長さがある。質問にはコンテキストと4つの選択肢が付属し、そのうち1つが正解となる。
Stats
生成されたデータセットには100,000件以上の質問と答えが含まれている
質問の平均長は1,200トークン