Core Concepts
OOV語彙の形態論的変化は、最先端のシステムでも十分に解決されていない課題である。本研究では、この課題に取り組むため、リトログラードモデル、LSTMベースのシーケンス・ツー・シーケンスモデル、Transformerベースのシーケンス・ツー・シーケンスモデルの3つのアプローチを開発し、評価した。
Abstract
本研究は、OOV語彙の形態論的変化に焦点を当てている。OOV語彙の変化は、最先端のシステムでも十分に解決されていない課題である。
まず、チェコ語の大規模な形態辞書MorfFlexを利用して、語彙分離型のトレーニング、開発、テストデータセットを構築した。さらに、実世界のOOV語彙である新語のデータセットも手動で作成した。
次に、3つのアプローチを開発した:
リトログラードモデル: 入力語彙と最長の共通接尾辞を持つ語彙を辞書から検索し、その語彙の変化パターンに基づいて変化させる。
LSTMベースのシーケンス・ツー・シーケンスモデル: 入力語彙と目的の変化形式をシーケンスとして扱い、LSTMエンコーダ・デコーダモデルで変換する。
Transformerベースのシーケンス・ツー・シーケンスモデル: LSTMモデルと同様のアプローチだが、Transformerアーキテクチャを使用する。
これらのモデルを、MorfFlexデータセットとチェコ語の新語データセットで評価した。結果、MorfFlexデータセットではTransformerモデルが最良の性能を示したが、新語データセットではリトログラードモデルが最も優れていた。さらに、16言語のSIGMORPHON 2022データセットでも評価し、9言語でState-of-the-Artの結果を得た。
最後に、チェコ語のOOV語彙の形態論的変化システムをPythonライブラリとして公開した。
Stats
新語データセットの37%が複合語や接頭辞付き語であり、リトログラードモデルがこれらの語を正しく変化させられた。
誤って生成された変化形のうち、約70%が固有名詞に関するものであった。固有名詞の変化は、一般名詞に比べて難しい。
誤り数が6つの変化形が最も多く、その誤りは主に単数属格、単数与格、単数対格、単数処格、複数主格、複数属格の形式に集中していた。これは、チェコ語の変化パターンの特性を反映していると考えられる。