核心概念
本文介紹了一個經過人工修正的黃金標準法語命名實體識別語料庫 WikiNER-fr-gold,它基於 WikiNER-fr 語料庫,並針對其標註錯誤和不一致性進行了修正,旨在提供一個更準確、一致的法語命名實體識別訓練和評估資源。
摘要
WikiNER-fr-gold:一個黃金標準的法語命名實體識別語料庫
本文介紹了 WikiNER-fr-gold,一個黃金標準的法語命名實體識別語料庫。該語料庫基於 WikiNER-fr,是 WikiNER 語料庫的法語部分,包含從維基百科文章中提取的句子,並標註了命名實體。
WikiNER-fr 語料庫的問題
WikiNER-fr 語料庫的標註是通過半監督的方式生成的,沒有經過人工驗證,因此存在一些錯誤和不一致性。例如:
- 超連結定義不一致:維基百科中的超連結是由許多貢獻者手動創建的,因此可能存在標準不一致的情況,導致生成的標註不一致。
- 超連結不符合命名實體的定義:並非所有超連結都指向命名實體,例如指向描述性短語的超連結。
- 複雜實體的分類:某些實體由於其複雜性而難以分類,例如地緣政治實體。
WikiNER-fr-gold 的修正
WikiNER-fr-gold 對 WikiNER-fr 語料庫進行了人工修正,以解決上述問題。具體而言,作者:
- 統一了超連結的定義,例如移除冗餘部分和添加缺失部分。
- 刪除了不符合命名實體定義的超連結,例如指向描述性短語的超連結。
- 根據上下文和其他語料庫的標註,對複雜實體進行了分類。
WikiNER-fr-gold 的意義
WikiNER-fr-gold 提供了一個更準確、一致的法語命名實體識別訓練和評估資源。它可以幫助研究人員開發和評估更準確的法語命名實體識別系統。
未來工作
作者計劃將修正工作擴展到整個 WikiNER-fr 語料庫,並最終擴展到其他語言。他們還計劃開發一個主動學習系統,以協助修正過程。
統計資料
WikiNER-fr-gold 語料庫包含 WikiNER-fr 語料庫 20% 的內容,約 26,818 個句子和 700,000 個詞。
WikiNER-fr 語料庫包含四種類型的實體:人物 (PER)、地點 (LOC)、組織 (ORG) 和其他 (MISC)。