核心概念
少量のラベル付きデータを使用して、StackOverflowデータセットの27種類のソフトウェア関連エンティティを効率的に認識する。
要約
本研究では、StackOverflowデータセットにおける少量サンプルでの名称エンティティ認識に取り組んでいる。
- StackOverflowには膨大な質問リポジトリがあるが、ラベル付きデータが限られているため、エンティティ認識が課題となっている。
- 提案手法は、メタラーニングを活用したRoBERTa+MAMLモデルを使用し、ベースラインモデルに比べて5%のF1スコア改善を達成した。
- さらに、ドメイン固有のフレーズ処理とナレッジベースのパターン抽出を組み合わせることで、認識精度をさらに向上させることができた。
- メタラーニング、ドメイン固有の処理、ナレッジベースのパターン抽出は、ソフトウェア関連の情報抽出やQ&Aタスクに有効であると期待される。
- 今後は、データセットの多様性を拡張し、メタラーニングのサポートセットやクエリセットの最適化に取り組む予定である。
統計
StackOverflowデータセットには27種類のソフトウェア関連エンティティが含まれている。
5-shot学習では、ランダムに選択したサンプルを使用した場合、一部のカテゴリの認識精度が低かった。
手動で選択したサンプルを使用することで、マイクロF1スコアが約3%、マクロF1スコアが約2%向上した。
ファイルタイプなどのカテゴリでは、ナレッジベースのパターン抽出を適用することで、F1スコアが0.345から0.490に大幅に改善された。
引用
"少量のラベル付きデータを使用して、StackOverflowデータセットの27種類のソフトウェア関連エンティティを効率的に認識する"
"メタラーニング、ドメイン固有の処理、ナレッジベースのパターン抽出は、ソフトウェア関連の情報抽出やQ&Aタスクに有効であると期待される"