核心概念
本研究では、ウルドゥー語の質問応答とテキスト理解のための新しいデータセット「UQA」を紹介する。UQAは、英語のSQuAD2.0データセットを翻訳して作成されており、答えの位置を保持するEATS (Enclose to Anchor, Translate, Seek)という手法を用いている。また、複数の多言語QAモデルをUQAで評価し、良好な結果を得ている。
要約
本研究では、ウルドゥー語の質問応答とテキスト理解のための新しいデータセット「UQA」を紹介している。
- UQAの作成プロセス:
- SQuAD2.0データセットを英語からウルドゥー語に翻訳
- 答えの位置を保持するためのEATS手法を開発
- 2つの機械翻訳モデル(Google Translator、Seamless M4T)を評価し、Seamless M4Tを採用
- UQAデータセットの特徴:
- 訓練データ124,745問、開発データ11,466問
- 回答可能な問題と回答不可能な問題を含む
- 多言語QAモデル(mBERT、XLM-RoBERTa、mT5)を評価した結果、XLM-R-XLが最も高い性能を示した
- UQAの活用:
- ウルドゥー語のNLP研究を促進
- 低リソース言語への機械学習モデルの適用を支援
- 教育や医療などの分野でウルドゥー語話者のニーズに応えるアプリケーションの開発に活用可能
統計
回答可能な問題の平均F1スコアは85.99、平均Exact Matchは74.56
回答不可能な問題の平均F1スコアは78.00、平均Exact Matchは65.67
引用
"UQAは、ウルドゥー語のNLP研究を促進し、低リソース言語への機械学習モデルの適用を支援する重要なリソースとなる。"
"UQAのデータサイズと高品質により、ウルドゥー語のLLMの訓練や、教育・医療分野のドメイン特化アプリケーションの開発に活用できる。"