核心概念
事前学習済み言語モデルとおおよその最近傍探索アルゴリズムを使用して、情報検索ベースのリバースディクショナリーシステムを提案する。
摘要
本研究では、情報検索ベースのリバースディクショナリーシステムを開発し、エストニア語の既存の言語リソース「Sõnaveeb」に適用する。事前学習済み言語モデルによる定義のエンコーディングと近似最近傍探索アルゴリズムを組み合わせることで、ユーザーの入力した説明に対応する単語を効率的に検索できる。
システムの評価には、既存の英語データセットを拡張したラベル付きデータセットと、Sõnaveebの同義語関係を利用した新しい教師なしデータセットを使用する。評価結果から、事前学習済み多言語モデルを活用したアプローチが有効であることが示された。特に、クロス言語検索タスクにおいて、エストニア語を含む訓練データを持つモデルが優れた性能を発揮した。
本研究の主な貢献は以下の通りである:
- 情報検索技術、事前学習済み言語モデル、近似最近傍探索アルゴリズムを組み合わせたリバースディクショナリーシステムの提案
- 教師なしデータを使用したリバースディクショナリーの評価手法の提案
- 英語リバースディクショナリーデータセットのエストニア語およびロシア語への拡張
- 非英語言語(エストニア語)におけるリバースディクショナリータスクへの事前学習済みモデルの適用と評価
- エストニア語リソースへのリバースディクショナリー機能の実装
統計資料
定義の長さは通常短いため、ユーザーは出力された単語リストを順番に確認することが期待される。
同義語関係に基づく教師なしデータセットでは、平均順位1位、平均順位2位の結果が得られた。
クロス言語検索タスクでは、エストニア語を含む訓練データを持つモデルが最も良い性能を示した。
引述
"リバースディクショナリーの有用性は多岐にわたる。書き手にとっては語彙を豊かにする手助けとなり、言語学習者にとっては母語での説明から目的の単語を見つけられる。"
"事前学習済み変換器ベースの言語モデルによる密な文章表現は、語彙の組み合わせ的な意味を表現する能力が高く、セマンティック検索に適している。"