Keskeiset käsitteet
低資源言語の正書法変異を含むテキストデータを大規模多言語モデルで微調整することで、正書法正規化の必要性を最小限に抑えることができる。
Tiivistelmä
本研究では、オック語の4つの方言(ランガドック語、レモザン語、プロヴァンス語、ガスコーニュ語)のデータを用いて多言語BERTモデルを微調整し、方言間の正書法変異を表現する能力を評価しました。
まず、方言間の平行語彙集を作成し、アナロジー計算やレキシコン誘導タスクを通じて、微調整モデルの方言表現を内部的に評価しました。その結果、表記の類似性が高い単語ペアは良好に表現されていましたが、表記の異なる単語ペアは適切に表現できていないことがわかりました。
次に、部品話語タギングとUniversal Dependency構文解析のタスクで外部評価を行いました。方言間の変異に頑健な性能が得られ、特に単一方言のデータでのみ学習した場合でも良好な結果が得られました。
これらの結果から、低資源言語の正書法変異を含むデータを大規模多言語モデルで微調整することで、前処理での正書法正規化の必要性を最小限に抑えられる可能性が示唆されました。ただし、表記の大きく異なる単語ペアの表現は課題が残っており、今後の検討が必要です。
Tilastot
正書法の違いが大きい単語ペアほど、モデルの表現が適切ではない。
ガスコーニュ語の助詞は、単一方言のデータでは正しくタグ付けできない。
プロヴァンス語の依存構文解析の性能が最も低い。
Lainaukset
"大規模多言語モデルを使うことで、前処理での正書法正規化の必要性を最小限に抑えられる可能性がある。"
"表記の大きく異なる単語ペアの表現は課題が残っている。"
"単一方言のデータでも、頑健な部品話語タギングと構文解析が可能である。"