本研究では、ロシア語の言語最小対ベンチマーク「RuBLiMP」を紹介する。RuBLiMPは、形態論、統語論、意味論の12の言語現象を網羅する45種類の最小対タスクから構成される。
文章抽出段階では、ウィキペディア、ウィキニュース、書籍のコーパスから文章を収集し、形態統語論パーサーを用いて自動注釈を行った。最小対生成段階では、言語学者が作成したルールに基づき、文章の語彙や構造を変更することで非文法的な文を生成した。最小対のキュレーションでは、25種類の言語モデルを用いて事前学習データの検出を行い、モデルに検出されない最小対を選定した。
言語モデルの評価実験の結果、形態論的な現象や主語述語の一致に関しては高い性能を示したが、構造的な関係、否定、他動性、時制に関しては人間に劣る傾向が見られた。また、多言語モデルの分析では、単一のモデルが全ての言語で高い性能を示すわけではないことが明らかになった。
RuBLiMPは、ロシア語の言語獲得メカニズムの解明に寄与することが期待される。今後の課題としては、事前学習データ検出手法の比較、新たな言語現象の追加、多言語モデルの詳細な分析などが挙げられる。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문