核心概念
語彙意味変化検出は複雑なタスクで、単語の使用例の意味的近接性の測定、意味クラスタリング、時間的変化の検出の3つのサブタスクから成る。本ベンチマークは、これらのサブタスクを統一的に評価できる枠組みを提供し、モデルの比較と改善を促進する。
要約
本論文は、語彙意味変化検出(Lexical Semantic Change Detection: LSCD)のための包括的なベンチマークを提案している。
LSCD は、単語の意味が時間とともにどのように変化するかを分析するタスクである。このタスクは以下の3つのサブタスクから成る:
単語の使用例間の意味的近接性の測定(Word-in-Context: WiC)
単語の使用例のクラスタリングによる意味クラスタの抽出(Word Sense Induction: WSI)
時間的変化に基づく意味変化の検出(LSCD)
本ベンチマークは、これらのサブタスクを統一的に評価できる枠組みを提供する。これにより、モデルの比較と改善が容易になる。
ベンチマークには、5か国語(ドイツ語、英語、スウェーデン語、スペイン語、ロシア語)の複数のデータセットが統合されている。これらのデータセットには、単語の使用例に対する人手による意味的近接性の評価が含まれており、WiC、WSI、LSDCの各タスクの評価が可能である。
本ベンチマークの利用により、研究者はLSCDモデルの開発と改善を促進できると期待される。特に、マルチリンガルなモデルの評価と改善に役立つと考えられる。
統計
単語の使用例間の意味的近接性が4段階で人手評価されている。
単語の使用例は、時間的に離れた2つのコーパスから抽出されている。