核心概念
キチュア語の初めての自動音声認識データセットであるキルカンを公開し、その構築と応用について報告する。
要約
本研究は、エクアドルの先住民語であるキチュア語の初めての自動音声認識(ASR)データセットであるキルカンを発表するものである。キチュア語は極端に資源の乏しい endangered 言語であり、自然言語処理への適用のためのリソースがこれまでなかった。
このデータセットには約4時間の音声データと、その文字起こし、スペイン語への翻訳、そして Universal Dependencies形式の形態統語情報が含まれている。音声データは公開されているラジオ番組から収集された。
データセットの分析では、キチュア語の膠着的な形態論と、スペイン語との頻繁なコードスイッチングに焦点を当てている。実験の結果、このデータセットを用いることで、小規模なデータセットにもかかわらず、信頼性の高いキチュア語のASRシステムを開発できることが示された。
このデータセット、ASRモデル、そしてそれらを開発するために使用したコードは公開される予定である。したがって、本研究は、資源の乏しい言語とそのコミュニティのためのリソース構築とその応用を前向きに示すものである。
統計
キチュア語のみのトークンが全体の64.15%を占める。
コードスイッチングしたトークンが全体の11.19%を占め、そのうち約半数が語内コードスイッチングである。
引用
"Killkan stands for Kichwa uyashkata payllatak killkak anta (Kichwa automatic speech recognizer) in Kichwa. The word killkan also means "it writes"."
"Kichwa is the most widely spoken indigenous language in the Republic of Ecuador, particularly along the Andean mountain range in the middle and the Amazonian region to the east of the country."
"Kichwa is in fact an umbrella term that involves several regional varieties of Northern Quechua."