本研究は、エクアドルの先住民語であるキチュア語の初めての自動音声認識(ASR)データセットであるキルカンを発表するものである。キチュア語は極端に資源の乏しい endangered 言語であり、自然言語処理への適用のためのリソースがこれまでなかった。
このデータセットには約4時間の音声データと、その文字起こし、スペイン語への翻訳、そして Universal Dependencies形式の形態統語情報が含まれている。音声データは公開されているラジオ番組から収集された。
データセットの分析では、キチュア語の膠着的な形態論と、スペイン語との頻繁なコードスイッチングに焦点を当てている。実験の結果、このデータセットを用いることで、小規模なデータセットにもかかわらず、信頼性の高いキチュア語のASRシステムを開発できることが示された。
このデータセット、ASRモデル、そしてそれらを開発するために使用したコードは公開される予定である。したがって、本研究は、資源の乏しい言語とそのコミュニティのためのリソース構築とその応用を前向きに示すものである。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы