Core Concepts
言語的多様性に対する言語モデルの適応には大きな課題があり、データの量や質、モデルの種類によって適応の難易度が大きく異なることが明らかになった。特に語彙・意味的な多様性への適応には大量のデータが必要だが、綴りの変異への適応にはデータ量以外の解決策が必要と考えられる。
Abstract
本研究では、言語的多様性を10種類の合成的な変化として表現し、それぞれに対するBERTモデルの適応能力を詳細に分析した。その結果、以下の知見が得られた:
言語モデルは、事前学習時のままでは全ての変化に対して極めて低い理解能力しか示さない。
語彙・意味的な変化への適応には大量のデータが必要だが、それ以外の変化への適応にはデータ量以外の解決策が必要と考えられる。多言語モデルは語彙・意味的変化への適応に有利だが、単言語モデルの方が綴りの変異への適応に有利である。
適応時のデータ構成が重要で、標準形式と非標準形式が混在するよりも、非標準形式のみのデータの方が適応が容易である。
これらの知見は、言語的多様性への言語モデルの適応を促進するための重要な示唆を与えるものである。
Stats
言語モデルの事前学習時の性能(データ量0)は、変化のない場合が最も高いが、全ての変化に対して極めて低い。
特に語彙・意味的変化(Affix、Hyp、Ant)への事前学習時の性能が最も低い。