核心概念
本研究では、ポルトガル語の定義生成のためのデータセット「DORE」を紹介する。DORE には10万を超える定義が含まれており、ポルトガル語の定義生成に関する研究を促進することが期待される。
要約
本研究では、ポルトガル語の定義生成のためのデータセット「DORE」を紹介する。
データ収集:
- ポルトガル語の電子辞書から定義を収集した。特に、Dicio と Portuguese Wiktionary から定義を抽出した。
- 単語リストを使ってURLを生成し、Webスクレイピングを行った。
データセットの特徴:
- DORE には10万を超える定義が含まれている。
- 定義の平均文字数は72.38、平均単語数は11.38である。
- 他の言語のデータセットと比較すると、DORE は規模が大きい部類に入る。
モデル評価:
- 一般的な変換器モデル、テキスト生成変換器モデル、大規模言語モデルを使って DORE のテストセットで評価を行った。
- 大規模言語モデルが最も良い結果を示した。
- テキスト生成変換器モデルも良好な結果を示した。
結論:
- DORE は、ポルトガル語の定義生成研究を促進するための重要なリソースとなる。
- 今後は、データセットの拡充や他言語との cross-lingual learning などの取り組みを予定している。
統計
定義の平均文字数は72.38文字である。
定義の平均単語数は11.38単語である。