本研究では、情報検索ベースのリバースディクショナリーシステムを開発し、エストニア語の既存の言語リソース「Sõnaveeb」に適用する。事前学習済み言語モデルによる定義のエンコーディングと近似最近傍探索アルゴリズムを組み合わせることで、ユーザーの入力した説明に対応する単語を効率的に検索できる。
システムの評価には、既存の英語データセットを拡張したラベル付きデータセットと、Sõnaveebの同義語関係を利用した新しい教師なしデータセットを使用する。評価結果から、事前学習済み多言語モデルを活用したアプローチが有効であることが示された。特に、クロス言語検索タスクにおいて、エストニア語を含む訓練データを持つモデルが優れた性能を発揮した。
本研究の主な貢献は以下の通りである:
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Aleksei Dork... kl. arxiv.org 05-01-2024
https://arxiv.org/pdf/2404.19430.pdfDybere Forespørgsler