Core Concepts
KoCoNovelは、韓国の近代および現代の小説50作品から抽出した178,000トークンの大規模な共参照解析データセットである。韓国語の言語的特徴と文化的背景を考慮した詳細なアノテーションガイドラインに基づいて構築されており、読者の視点と全知の語り手の視点の2つのバージョンを提供している。
Abstract
KoCoNovelは以下の特徴を持つ大規模な韓国語共参照解析データセットである:
50の近代および現代の韓国小説から抽出した178,000トークンを含む
登場人物の共参照関係を詳細にアノテーションしており、19,030個の言及と1,418個のエンティティを含む
韓国語の言語的特徴(敬称の多用、冠詞の不在など)と文化的背景(固有名詞よりも関係性を示す語の使用など)を考慮したアノテーションガイドラインに基づいて構築
全知の語り手の視点と読者の視点の2つのバージョンを提供
単独の一般名詞が全体の24%を占めるなど、韓国語の特徴的な言語使用を反映
BERT ベースの共参照解析モデルの評価実験では、NIKL コーパスに比べて顕著な性能向上が確認された
Stats
全体の19,030個の言及のうち、単独の一般名詞が4,591個(24.1%)を占める
親族を示す名詞と名詞句が合わせて2,587個(13.6%)を占める
個別の作品における登場人物の数は最大97個、最小5個と幅広い