Belangrijkste concepten
本研究では、古代・歴史言語に対するXLM-RoBERTaの適応手法を提案し、形態素解析、品詞タグ付け、レンマ化、文字レベルおよび単語レベルのギャップ補完の各タスクで評価を行った。パラメータ効率の高いアダプター学習手法を用いることで、近代言語で事前学習されたモデルを低リソース言語に適用可能であることを示した。
Samenvatting
本研究は、SIGTYP 2024共有課題における古代・歴史言語の単語埋め込み評価タスクに参加したものである。
課題では、形態素解析、品詞タグ付け、レンマ化、文字レベルおよび単語レベルのギャップ補完の5つのタスクが設定されている。
提案手法は以下の通り:
XLM-RoBERTaをベースモデルとして採用し、言語固有のアダプターと課題固有のアダプターを順次学習する手法を提案した。
一部の言語では、ボキャブラリーが不足しているため、カスタムトークナイザーとエンベディングを導入した。
単語レベルのギャップ補完では、サブワード単位の予測を単語単位に変換する手法を提案した。
文字レベルのギャップ補完では、単語候補の辞書引きと置換ルールに基づく手法を提案した。
提案手法の評価結果は以下の通り:
全体的な順位は3チーム中2位
単語レベルのギャップ補完で1位
文字レベルのギャップ補完では一部の言語で低スコア
品詞タグ付けとレンマ化では概ね良好な結果
カスタムトークナイザーを必要とする言語では全体的に低スコア
本研究の主要な貢献は、アダプター学習手法を用いることで、近代言語で事前学習されたモデルを低リソース言語に適用可能であることを示したことである。今後の課題としては、アダプター融合などのより高度な手法の適用や、カスタムトークナイザーの改善などが考えられる。
Statistieken
16の古代・歴史言語で合計約30万文のデータを使用
言語ごとのデータ量は1,263文から68,991文と大きな差がある