Core Concepts
大規模なエンティティタイプの数とその意味の正確さが、少数ショットNERの性能向上に重要であることを示す。
Abstract
少数ショットNERは、わずかな注釈付き例からテキスト内の名前付きエンティティを特定および分類する。
ラベル解釈学習フェーズでは、エンティティタイプの自然言語記述を理解するためにモデルが学習し、その後新しいエンティティタイプに対する少数ショットNERを実行する。
LITSETアプローチは、WikiData情報を活用して大規模なエンティティタイプのデータセットを作成し、ゼロショットおよび少数ショットNERで強力な結果を示す。
ラベル解釈学習は、異なるドメインや言語設定でも有効であり、既存のデータセットよりも優れたパフォーマンスを発揮する。
Introduction
少数ショットNERはわずかな注釈付き例から名前付きエンティティを特定・分類する手法。
プレトレーニングされた言語モデル(PLM)を使用した転移学習が一般的。
Large-Scale Label Interpretation Learning
大規模なエンティティタイプとその意味の正確さが少数ショットNER性能に与える影響を探究。
ZELDAとWikiData情報を活用して派生したデータセットでラベル解釈学習実施。
Validation Experiment for Impact of Entity Types and Label Descriptions
エンティティタイプとラベル記述の豊富さが少数ショットNER能力に及ぼす影響検証実験。
異なるラベルセマンチクス使用時にも改善された性能が確認される。
Transfer to Advanced Bi-Encoders
LEARおよびBINDERアーキテクチャへLITSETアプローチ拡張。LEARではINTRA設定で基準超える結果。
Cross-Lingual Transfer
xlm-roberta-baseモデル使用して多言語間でLITSET転送可能性評価。英語版OntoNotes基準で強い改善効果示す。
Stats
ZELDAとWikiData情報から派生したデータセット。
Orders of magnitude more distinct entity types.
Quotes
"Few-shot NER through heuristical data-based optimization."
"Our findings indicate significant potential for improving few-shot NER."