Core Concepts
바이에른 방언 데이터에서 개체명을 효과적으로 추출하고 분류하는 방법을 제시한다.
Abstract
이 논문은 바이에른 방언 개체명 인식 데이터셋 BarNER를 소개한다. BarNER는 바이에른 위키피디아 기사와 트위터 데이터에서 수작업으로 161K 토큰을 주석한 것으로, 독일어 CoNLL 2006과 GermEval 데이터셋을 기반으로 한다. 바이에른 방언은 표준 독일어와 어휘 분포, 구문 구조, 개체 정보 등에서 차이가 있다.
논문에서는 바이에른과 독일어 코퍼스에 대한 in-domain, cross-domain, 순차적, 그리고 joint 실험을 수행하여 바이에른 개체명 인식에 대한 종합적인 결과를 제시한다. 독일어 NER (하위)데이터셋의 지식을 활용하면 bar-wiki와 bar-tweet에서 성능이 크게 향상된다. 반대로 바이에른 데이터로 먼저 학습하면 독일어 CoNLL 2006 코퍼스에도 약간의 기여를 한다. 또한 바이에른 트윗에 대한 금 방언 레이블을 활용한 다태스크 학습을 통해 bar-wiki NER SOTA를 달성한다. 이를 통해 저자원 BarNER 코퍼스의 필요성과 방언, 장르, 주제의 다양성이 모델 성능 향상에 중요함을 입증한다.
Stats
바이에른 위키피디아 데이터(bar-wiki)에는 총 75,687개의 토큰과 4,192개의 개체명이 있다.
바이에른 트위터 데이터(bar-tweet)에는 총 86,090개의 토큰과 2,486개의 개체명이 있다.
Quotes
"바이에른 방언은 표준 독일어와 어휘 분포, 구문 구조, 개체 정보 등에서 차이가 있다."
"저자원 BarNER 코퍼스의 필요성과 방언, 장르, 주제의 다양성이 모델 성능 향상에 중요하다."