Core Concepts
自然言語処理タスクにおける未知の意味の検出方法を提案する研究。
Abstract
この研究は、英語とスウェーデン語における未知の意味の検出タスクに焦点を当てています。辞書エントリーとコーパスから得られた単語使用法を比較し、Word-in-Context埋め込みを使用してモデル化します。多言語アプリケーションにも適用可能であり、人間注釈アプローチを使用してモデルのパフォーマンスを評価します。研究では、従来の手法よりも実用的なシナリオでモデルを評価し、最新技術をテストしています。
Stats
タスク:Word Sense Disambiguation(WSD)はNLPで古典的なタスクであり、数十年間研究されてきました。
モデル:BERTやSentenceBERT(SBERT)などの文脈埋め込みモデルが利用されています。
コーパス:現代と歴史的なコーパスが使用されており、それぞれ異なる目的で活用されています。
辞書:WordNet 3.0やSvensk ordbok(SO)が主要な辞書として使用されています。
Quotes
"Lexicographers regularly check dictionaries for outdated entries, a challenge in lexicography over and above identifying new words themselves."
"Building such models makes it possible to extract the little training data needed from limited lexical resources like a dictionary."
"Our model considerably increases the chance to find non-recorded word senses in corpus usages compared to a random baseline."