Core Concepts
低リソース言語のゼロショット トピック分類のために、辞書を活用したデータセットの構築が有効である。
Abstract
本研究では、低リソース言語であるルクセンブルク語を対象に、辞書を活用して2つの新しいトピック関連性分類データセットを構築した。NLIベースのアプローチと比較して、辞書ベースのデータセットを使用することで、ゼロショットトピック分類の性能が向上することを示した。
具体的には以下の通り:
NLIタスクとゼロショットトピック分類タスクの間にはミスマッチがあり、NLIデータセットを直接使うことには課題がある。特に低リソース言語では、事前学習データの不足により、複雑な推論タスクであるNLIを解くことが困難。
辞書は低リソース言語でも比較的入手しやすいリソースであり、辞書を活用してデータセットを構築することで、ゼロショットトピック分類に適したデータを得ることができる。
ルクセンブルク語を対象に、同義語と単語翻訳の2種類のデータセットを構築した(LETZ-SYN, LETZ-WoT)。
実験の結果、NLIデータを使うよりも、辞書ベースのデータセットを使った方が、特に低リソース設定でゼロショットトピック分類の性能が高くなることを示した。
Stats
例文の長さは平均して10単語程度である。
LETZ-SYNデータセットには11,822個の訓練サンプル、1,478個の検証/テストサンプルが含まれる。
LETZ-WoTデータセットには39,132個の訓練サンプル、4,892個の検証/テストサンプルが含まれる。