核心概念
絶滅の危機に瀕する言語コミュニティ向けの自動IGT抽出技術の提案と実験結果を紹介。
統計資料
単なるフィールドデータの書き起こしは1分あたり最大1時間かかる。
OWSM E2Eモデルはトランスクリプションおよび翻訳で最も優れたパフォーマンスを示す。
モデルは既知言語よりも未知言語で性能が低い。
引述
"Thousands of the world’s languages are in danger of extinction—a tremendous threat to cultural identities and human language diversity."
"We propose WAV2GLOSS: a task to extract these four annotation components automatically from speech."
"Most linguistic field recordings, though, never make it to IGT."