極端に少ない監督学習による効率的な固有表現抽出
本研究では、固有表現抽出(NER)の半教師あり学習問題に取り組み、極端に少ない監督下でも高い性能を発揮する手法を提案する。提案手法は、事前学習言語モデルと言語ルールを組み合わせた単純かつモジュール化された手法であり、「One Sense Per Discourse」、マスクド言語モデルを用いた教師なし NER、品詞情報を活用した偽陰性の排除など、様々な直感的なアプローチを統合している。提案手法は、CoNLL-2003 データセットにおいて、極端に少ない監督下でも非常に高い性能を発揮し、より多くの監督データを使う従来手法とも匹敵する性能を示す。さらに、ゼロショット設定でも WNUT-17 データセットで良好な結果を得ている。