核心概念
KazQADは、カザフ語の質問応答タスクのためのデータセットであり、情報検索、読解理解、オープンドメイン質問応答の各タスクに利用できる。
要約
KazQADは、カザフ語の質問応答データセットである。以下の特徴がある:
質問は2つのソースから収集された:
英語の「Natural Questions」データセットから機械翻訳したもの(トレーニングセット)
カザフスタンの大学入試問題(開発・テストセット)
データセットには約6,000の固有の質問、12,000件の関連性判定、短答抽出アノテーションが含まれる
質問に対応するカザフ語のWikipediaページを収集し、コーパスとして提供
情報検索、読解理解、オープンドメイン質問応答の各タスクのベースラインモデルを開発
現在のAIモデル(ChatGPT)はカザフ語の質問に対する回答生成に課題があることを示した
統計
質問の平均単語数は6.6単語
答えの平均単語数は3.6単語
質問と関連パッセージの最長共通部分の平均長は13.0単語