Core Concepts
文脈情報を活用することで、単語レベルの形態素分割よりも優れたパフォーマンスを発揮できる。特に低リソース言語においてその効果が顕著である。
Abstract
本研究では、文全体を入力として扱う系列変換モデルを提案し、センテンスレベルの形態素分割タスクに取り組んでいる。
単語レベルの形態素分割に焦点を当てた従来研究とは異なり、文脈情報を活用することで優れた性能を発揮できることを示している。
単言語モデルと多言語モデルを比較した結果、多言語モデルが特に低リソース言語で優れたパフォーマンスを示した。
データ拡張手法として、単語レベルのデータを活用したり、低リソース言語のデータをアップサンプリングしたりすることで、性能向上が確認された。
提案手法は、現状最高スコアには及ばないものの、高リソース言語では遜色ないパフォーマンスを発揮し、低リソース言語でも一定の成果を上げている。
Stats
チェコ語の文レベル形態素分割データは1000件しかない。
英語の文レベル形態素分割データは11007件ある。
モンゴル語の文レベル形態素分割データは1000件しかない。