核心概念
범용 NER(UNER)은 13개 언어에 걸쳐 명명 개체 인식을 위한 고품질 교차 언어 일관성 주석을 제공하여 다국어 NER 연구를 촉진하고 표준화하는 것을 목표로 합니다.
摘要
이 논문은 범용 NER(UNER) 프로젝트를 소개합니다. UNER는 다국어 명명 개체 인식 연구를 촉진하고 표준화하기 위해 13개 언어에 걸쳐 고품질 교차 언어 일관성 주석을 제공하는 오픈 커뮤니티 주도 프로젝트입니다.
UNER v1에는 13개 다양한 언어에 걸쳐 3개의 주요 개체 유형(PER, ORG, LOC)으로 주석된 19개 데이터셋이 포함되어 있습니다. 데이터셋은 주로 Universal Dependencies 트리뱅크의 텍스트를 기반으로 하며, 주로 토착어 화자가 주석했습니다.
UNER 프로젝트는 데이터셋 생성 및 구성을 자세히 설명하고, XLM-R 모델을 사용한 초기 모델링 기준선을 제공합니다. 유럽 언어 간 전이 성능은 비교적 강하지만, 다른 문자 체계나 언어 유형으로 전이할 때는 격차가 있음을 보여줍니다.
UNER는 표준화되고 교차 언어적이며 수동으로 주석된 NER 데이터에 대한 다국어 NLP 커뮤니티의 요구를 해결하는 것을 목표로 합니다. UNER v1 릴리스 후 새로운 언어와 데이터셋을 추가할 계획이며, 관심 있는 새로운 주석자들을 환영합니다.
統計資料
이 원정은 Albany에 도달하려는 의도를 가진 Joseph Burgoyne 장군이 이끌었습니다.
이 원정은 북캐롤라이나 대학교 운동장에 모인 군중들에게 연설한 오바마 대통령이 이끌었습니다.
이 원정은 북경 인공지능 아카데미의 Börje F. Karlsson이 이끌었습니다.
引述
"범용 NER(UNER)은 다국어 NER 연구를 촉진하고 표준화하기 위해 고품질 교차 언어 일관성 주석을 제공하는 것을 목표로 합니다."
"UNER v1에는 13개 다양한 언어에 걸쳐 3개의 주요 개체 유형(PER, ORG, LOC)으로 주석된 19개 데이터셋이 포함되어 있습니다."
"유럽 언어 간 전이 성능은 비교적 강하지만, 다른 문자 체계나 언어 유형으로 전이할 때는 격차가 있습니다."