Core Concepts
マラーティー語の質問応答データセットMahaSQuADを作成し、言語の壁を克服する。
Abstract
本研究では、英語の質問応答データセットSQuADをマラーティー語に翻訳することで、MahaSQuADというデータセットを作成した。
SQuADデータセットを頑健な手法を用いてマラーティー語に翻訳した。
翻訳された答えの位置を正確に特定するための手法を提案した。
118,516件の訓練データ、11,873件の検証データ、11,803件のテストデータ、500件の手動検証済みのゴールドデータセットを作成した。
マラーティー語の質問応答モデルMahaBERTとMahaROBERTaを開発し、高精度な結果を得た。
本研究は、低資源言語における質問応答システムの開発を促進し、マラーティー語話者のアクセシビリティを向上させる。また、他の低資源言語への拡張も可能な汎用的なアプローチを示している。
Stats
翻訳された答えは、元の文脈中の答えの位置とは異なる可能性がある。
翻訳された答えの長さは、元の答えの長さと異なる可能性がある。
文脈なしで答えを翻訳すると、翻訳された答えが異なる可能性がある。
Quotes
"質問応答システムは情報検索を革新してきたが、言語的・文化的な境界が広範な利用可能性を制限している。"
"マラーティー語は単なる言語ではなく、何百万人もの人々のアイデンティティと文化を担う存在である。"
"マラーティー語の質問応答データセットの作成は、多様な人口に影響を与える可能性がある。"